> > > > GTC 2010: DirectCompute

GTC 2010: DirectCompute

DruckenE-Mail
Erstellt am: von

NVIDIA_GTCIm Rahmen der Einführung in das Thema DirectCompute versuchte NVIDIA die Frage zu beantworten, warum überhaupt GPUs verwendet werden sollen, um komplizierte Berechnungen durchzuführen. GPUs bieten in der Theorie eine höhere Rechenleistung, als dies aktuell CPUs können. Reduziert auf die Anzahl der FLOPs liegen GPUs sowohl bei der Rechenleistung unter DirectX 10 und 11 auf Hardware-Basis deutlich vor den modernen Prozessoren. Doch so ohne weiteres ist dies nicht möglich, denn eine effiziente Verarbeitung von Daten kann nur über eine Aufteilung eines Problems oder einer Aufgabe in viele kleine erfolgen. Soweit keine Überraschungen, denn dies ist bereits seit geraumer Zeit bekannt und wird auch dadurch deutlich, dass Prozessoren über immer mehr Kerne verfügen und sowohl dort, als auch bei den GPUs, die Verarbeitung auf möglichst vielen Kernen Vorrang vor dem Takt hat.

GTC2010_DC_02_rs GTC2010_DC_03_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

GPUs bieten einen hohen Daten-Durchfluss, aber auch eine hohe Speicher-Latancy. Daher muss die Zuteilung der Speicheradressen zum jeweiligen Thread intelligent erfolgen. Konflikte beim Zugriff sind dabei natürlich zu vermeiden.

GTC2010_DC_04_rs GTC2010_DC_05_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Eine effektive Nutzung der GPUs setzt verschiedene Gegegebenheiten voraus. So gilt bereits bei der Programmierung zu beachten, dass pro Hardware-Shader-Unit 8 Thread-Groups maximal zur Verfügung stehen. Noch weitaus wichtiger ist die limitierte shared-Memory von 48 kB. In jeder Hardware-Shader-Unit können bis zu 1536 Threads gleichzeitig ausgeführt werden.

GTC2010_DC_06_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Eine hohe Effektivität wird auch nur dann erreicht, wenn alle Multiprozessoren auch genutzt werden. Die anfallenden Threads werden also in Thread-Groups zusammengeführt und jeder Multiprozessor sollte mindestens eine Thread-Group zur Verarbeitung vorliegen haben. Ein großes Problem ist aber der Austausch von Daten zwischen den verschiedenen Multiprozessoren innerhalb der Thread-Groups. Eine Möglichkeit wäre es die Daten global auf allen Multiprozessoren zu synchronisieren, was allerdings zu einem gewissen Overload führt, da auch Daten übertragen werden, die nur von einer weiteren Instanz verwendet werden. Es empfiehlt sich also die Daten gezielt an die gewünschte Thread-Group zu übertragen, was dem Programmierer allerdings einen höheren Code-Aufwand abverlangt. Möglich macht dies ein sogenannter Thread Group Shared Memory, der angelegt wird und zwischen verschiedenen Thread-Groups einen Datenaustausch erlaubt.

Werden Daten aber einer GPU zwischen der ALU und dem Speicher ausgetauscht, gehört zu jedem Datenblock ein gewisser Anteil an Informationen, welche die Adresse innerhalb des Speichers und weitere Details enthalten. Mit höherer Datenrate wird dieser Overhead ebenfalls immer größer und behindern eine vernünftige Skalierung der Performance. NVIDIA hat einige Mittel und Wege gefunden diesen Overhead zu reduzieren, was sich letztendlich in einer höheren effektiven Bandbreite niederschlägt.

GTC2010_DC_11_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

DirectCompute kann bei effektiver Programmierung also hochoptimierte Aufgaben übernehmen. Ein Beispiel ist an dieser Stelle die Rauschreduzierung auf Fotos. Ein Video stellt die Abarbeitung der verschiedenen Rausch-Frequenzen dar. Links ist Originalfoto zu sehen, rechts das überarbeitete. Eine weitere Anwendung das Einfügen eines Lens-Flare-Effekts in einer 3D-Szene oder die Verarbeitung von HDR-Fotos. Beides haben wir in einem Video zusammengeführt.

Ein großes Einsatzgebiet von DirectCompute zur Berechnung von rechenintensiven Daten, ist die Darstellung von Flüssigkeiten und hier Speziellen die Simulation von Wellen.

Weitere Links:

Social Links

Ihre Bewertung

Ø Bewertungen: 0

Tags

es liegen noch keine Tags vor.

Kommentare (0)

Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

ASUS ROG: Modulares Gehäuse, neue Gaming-PCs, externe GPU und mehr...

Logo von IMAGES/STORIES/LOGOS-2016/ASUS_ROG

Die Computex 2016 hat in Taipei noch nicht offiziell begonnen und doch haben es einige Hersteller nicht abwarten können und bereits erste neue Produkte vorgestellt. So hat ASUS nicht nur drei neue ZenFones mit drei unterschiedlichen Displaydiagonalen und das ZenBook 3 vorgestellt, sondern nun auch... [mehr]

Alle Computex-Videos im Überblick

Logo von IMAGES/STORIES/LOGOS-2015/COMPUTEX

In der letzten Woche ist viel passiert in der IT-Welt. Nicht nur, dass AMD recht überraschend seine erste Polaris-Grafikkarte gezeigt hat, auf der Computex gab es zahlreiche neue Produkte zu sehen und den ein oder anderen Ausblick in die Zukunft in Form von Konzeptstudien. Unser Computex-Team,... [mehr]

Cooler Master zur CES mit Maker-Gehäuse, -Kühler und Maker-Netzteil (Update 2)

Logo von IMAGES/STORIES/LOGOS-2013/COOLERMASTER_NEU

Cooler Masters Maker-Programm soll den Input von Moddern, Entwicklern und Nutzern allgemein umsetzen und bei der Entwicklung neuer Produkte berücksichtigen. Einen ersten Ausblick darauf gab 2015 das flexible und individualisierbare MasterCase 5. Auf der CES ist das Maker-Programm jetzt sogar... [mehr]

MSI zeigt Gaming-Backpack, Gaming-Notebooks, ein Komplettsystem und Mainboards

Logo von IMAGES/STORIES/LOGOS-2013/MSI

Natürlich waren wir auch auf dem MSI-Stand, auf dem uns Dirk Neuneier Rede und Antwort stand und uns die neuen Produkte vorgestellt hat. Gleich zu Anfang im Video ist unser Redakteur Andreas Schilling zu sehen, der sich derweil mit einem Virtual-Reality-Spiel vergnügt. Aufgrund eines neuen... [mehr]

ASRock zeigt zwei neue X99-Platinen, zwei Mini-Systeme und einen Router

Logo von IMAGES/STORIES/LOGOS-2013/ASROCK_LOGO_2010

Passend zum NDA-Fall der neuen Broadwell-E-Prozessoren von Intel - wie dem getesteten Core i7-6950X - hat auch Mainboard-Spezialist ASRock neben weiteren Produkten mit dem "X99 Taichi" und dem "X99 Gaming i7"  zwei neue LGA2011-3-Platinen auf seinem Stand in Taipei präsentiert. Von der... [mehr]

Galaxy S7, G5, MateBook: Der MWC war innovativ, überraschend und enttäuschend

Logo von IMAGES/STORIES/LOGOS-2016/MWC

Die Tore sind geschlossen, der Tross zieht weiter: Nach vier Tagen MWC stellt sich auch Ende Februar 2016 wie in jedem Jahr die Frage, welcher Hersteller für die größte Überraschung gesorgt, den größten Eindruck hinterlassen oder die Erwartungen enttäuscht hat. Die Antworten sind – anders... [mehr]