> > > > NVIDIA präsentiert Next-Generation GPU Fermi bzw. GT300

NVIDIA präsentiert Next-Generation GPU Fermi bzw. GT300

DruckenE-Mail
Erstellt am: von

nvidiaSoeben hat NVIDIA einen Einblick auf das gegeben, was uns in der nächsten GPU-Generation erwarten wird. Demnach hat man unter dem Codenamen Fermi die dritte Generation seiner CUDA-Compute- und Grafik-Architektur entwickelt. Dabei greift man auf die Erfahrungen bei der Entwicklung des G80 und GT200 zurück und verbessert deren Architektur-Konzepte weiter. Demnach ist man mit der Performance der Single-Precision-Fließkomma-Performance schon sehr zufrieden, allerdings verlangten zahlreiche Anwendungszwecke immer mehr Double-Precision-Performance. Hinzu kommt die Notwendigkeit nach einer Fehlererkennung (ECC) im Speicher, was die Verwendung solcher GPUs in einem Datacenter möglich machen würde, die auf konsistente Daten angewiesen sind. Bisher verfügten die GPUs über nur 16 kB shared-Cache, was vielen Entwicklern deutlich zu wenig war. Hinzu kommt, dass dieser Speicher nicht von jeder Compute-Software verwendet werden konnte und somit ungenützt blieb.

Aus diesen und noch einigen Anfragen mehr entwickelte sich Fermi. Die technischen Daten sind im folgender Übersicht gegen G80 und GT200 miteinander verglichen.

Fermi_1_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

3 Milliarden Transistoren arbeiten in der Fermi-GPU, die vermutlich in 40 nm bei TSMC gefertigt wird. Im Vergleich zu AMDs RV870 mit 2,15 Milliarden Transistoren noch einmal eine deutliche Steigerung. Gegenüber dem GT200 entspricht dieser einer Verdopplung. Die Doube-Precision-Fließkomma-Performance konnte um den Faktor acht gesteigert werden. Bei der Single-Precision Fließkomma-Performance gibt man sich mit einer Verdopplung zufrieden. Die Größe des shared-Memory ist vergrößert worden. Hinzugekommen ist ein L1- und L2-Cache. Der Speicher verfügt nun auch über eine Fehlererkennung (ECC).

Fermi_3_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Maßgeblich verantwortlich zur Steigerung der Performane sind die 512 Shader-Prozessoren. Diese setzen sich aus 16 Streaming-Multiprozessoren (SM) zusammen, die wiederum aus 32 Shader-Prozessoren bestehen. Jeder Shader-Prozessor besteht aus einer Integer Arithmetic Logic Unit (ALU) und einer Floating Point Unit (FPU). Mit der neuen Arithmetik erfüllt NVIDIA den neuen IEEE 754-2008 Standard und erlaubt so Fused Multiply-Add (FMA) Funktionen, die sowohl Single- als auch Double-Precision durchführen können. FMA ermöglicht auch Multiply-Add (MAD) Funktionen, die sowohl eine Multiplikation als auch eine Addition mit nur einer Rundung berechnen können.

Sogenannte Special Function Units (SFUs) übernehmen Berechnungen, die keiner Multiplikation oder Addition entsprechen. Vier dieser SFUs stehen in der Fermi-GPU zur Verfügung. Jede SFU kann pro Takt und Thread eine Berechnung durchführen. Größere Befehle können über bis zu acht Takte ausgedehnt werden. Damit die Dispatch Unit in dieser Zeit nicht auf die SFUs warten muss und weiterhin die übrigen Shader-Prozessoren versorgen kann, arbeiten die SFU-Pipelines getrennt von dieser.

Zu den SMs und SFUs gesellen sich noch Load/Store Units. Jeder Streaming-Multiprozessor verfügt über 16 Load/Store Units, die für 16 Threads pro Takt die Quell- und Ziel-Adressierung im Speicher und Cache berechnen.

Fermi_2_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Die Speicheranbindung setzt sich aus sechs 64-Bit-Speichercontrollern zusammen. Insgesamt ist das Speicherinterface somit 384-Bit breit und kann bis zu 6 GB GDDR5-Speicher anbinden. Je nach Ausbaustufen können also 1,5, 3 oder die vollen 6 GB verbaut werden. Das Host-Interface sorgt für die Verbindung der GPU mit dem PCI-Express-Interface und somit an den Rest des Systems. Der GigaThread Global-Scheduler verteilt Thread-Blöcke an den Streaming-Multiprozessoren-Scheduler, wo alle anfallenden Operationen auf die Shader-Prozessoren verteilt werden.

Fermi_4_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Aufgrund der immer größer werdenden Nachfrage nach Double-Precision-Performance, hat NVIDIA auf diesen Umstand besonderen Wert gelegt. Die Performance der Fermi-GPU kann theoretisch maximal knapp achtmal höher sein als beim GT200. In der Praxis zeigt sich dann obiges Bild.

Fermi_5_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Die Streaming-Multiprozessoren des Fermi verfügen über jeweils zwei Warp Scheduler und Instruction Dispatch Units. Ein Warp ist eine Zusammenstellung von Threads, die sich die gleiche Pipeline innerhalb der SIMT-Architektur (Single Instruction, Multiple Thread) teilen. Der Warp Scheduler wählt sich zwei Warps und verteilt die zu berechnenden Funktionen auf bis zu 16 Shader-Prozessoren, 16 Load/Store Units oder die vier SFUs.

Fermi_6

Beim RV870 ebenfalls verwendet wird ein shared-Memory. In der Fermi-GPU stehen 64 kB shared-Memory pro Streaming-Multiprozessor zur Verfügung. 48 kB sind dabei frei konfigurierbar, 16 kB werden dann als L1-Cache verwendet. Es besteht aber ebenfalls die Möglichkeit 16 kB shared-Memory zu verwenden, dann sind 48 kB L1-Cache verfügbar.

Fermi_7_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Ein shared-Memory sorgt dafür, dass Daten, die von mehreren Threads verwendet werden, nicht mehr vom Speicher in die GPU und zurück geschrieben werden müssen, sondern sozusagen auf der GPU verbleiben können. Dadurch können Berechnungen deutlich schneller ausgeführt werden.

Die Integrität von Daten ist besonders bei wissenschaftlichen Anwendungen von besonderer Wichtigkeit. So ist die Fehlererkennung (ECC) im Speicher ein logischer Schritt. Selbst in modernen Speichertypen wie GDDR5 oder innerhalb der Speicher der GPU kann es dazu kommen, dass ein Bit umkippt und somit die Integrität des Speichers verloren geht. ECC erkennt diesen Fehler und korrigiert diesen.

Fermi_8_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Moderne GPUs erlauben nicht nur das Ausführen eines Programms auf der Grafikkarte, sondern gleich mehrerer. Über sogenannte Kernel Execution ist dies nun auch auf der Fermi-GPU möglich. Aufgaben die durch eine Kernel Execution an die GPU weitergegeben werden, werden also nicht mehr seriell abgearbeitet, sondern können gleichzeitig bearbeitet werden.

Eine maßgebliche Rolle bei der Performance in Multi-Threaded-Operationen spielt das Application Context Switching. Dies geschieht laut NVIDIA deutlich schneller als in vorangegangenen Generationen. Zwischen 10 und 20 Mikrosekunden beträgt die Umschaltzeit die benötigt wird, um die Kommunikationen zwischen zwei unterschiedlichen Kerneln zu gewährleisten. Dies ist beispielsweise der Fall, wenn Physik- und Grafik-Berechnung miteinander synchronisiert werden müssen.

Fermi_9_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Um die Programmierung von CUDA C, OpenCL und DirectCompute zu gewährleisten, präsentiert NVIDIA mit Nexus eine Dev-Kit um unter Microsoft Visual Studio entsprechend parallelisierte Software zu programmieren.

Zum Abschluss noch folgendes: Bisher hat NVIDIA nur technische Daten zu Fermi preis gegeben. Möglichte Daten zu entsprechenden Grafikkarten, dem Takt der GPU oder des Speichers, sind bisher noch nicht bekannt. Für die Beurteilung der Leistung in 3D-Spielen wären Informationen über ROPs und TMUs ebenfalls hilfreich. Ebenso ein Termin oder die Namensgebung dieser Karten fehlt bisher. Besonders interessant wären auch Angaben zum Stromverbauch. Bei einer derart hohen Anzahl an Transistoren und trotz 40-nm-Fertigung dürfte dieser zumindest unter Last neue Rekorde brechen.

NVIDIA veranstaltet derzeit in den USA die GPU Technology Conference. Zu dieser sind nur einige wenige Journalisten eingeladen worden, wir erhielten gegen 19:30 Uhr diese Informationen mit der Bitte, sie bis 22:00 Uhr zurück zu halten. Also hatten wir knapp 2,5 Stunden um obige Informationen zusammen zu fassen und euch zu präsentieren. Wir würden uns wünschen NVIDIA hätte hier einen etwas anderen Weg eingeschlagen und uns früher informiert. Dann wäre auch Zeit geblieben die Informationen deutlich informativer aufzubereiten.

Weitere Links:

Social Links

Ihre Bewertung

Ø Bewertungen: 0

Tags

es liegen noch keine Tags vor.

Kommentare (19)

#10
Registriert seit: 12.07.2009

Hauptgefreiter
Beiträge: 139
Wer nutzt hier eigentlich gpgpu krams?Das ist doch ehrlich gesagt die Frage.Ka warum die das so anpreisen.D1e 98 % der Leute ist das doch wayne...Was habe ich als Spieler von Cuda?98 % sollte das doch ganricht intressieren.Für SPieler ist das ganze doch unintressant.
#11
customavatars/avatar73489_1.gif
Registriert seit: 25.09.2007

Kapitänleutnant
Beiträge: 1581
Tja, und dann machen auch die aussagen beim letzten conference call sinn, wo man ja meinte, DX11 wäre gar nicht so wichtig, viel wichtiger sei GPGPU. Klang damals schon unterschwellig nach einer strategischen neuausrichtung (die ohnehin kommen muss, der PC spiele markt schrumpft ja eigentlich nur noch und bei den chipsätzen kommen nur noch für mobile devices interessante dinge).

Das teil scheint also ganz schön potent in sachen GPGPU zu sein. Bei heise hat man unter annahme gleicher taktraten wie bei der aktuellen tesla c1060 nicht unbedingt markerschütternde SP und DP werte im vergleich zur 5870 errechnet. Aber auf diese theoretischen zahlenspiele kommt es auch nicht so an (aber war schon wichtig endlich die DP performance aus dem keller zu holen wenn man im HPC sektor mitmischen will). Viel wichtiger sind andere technische neuerungen, würde ich mal sagen.

Aber trotzdem hört man wieder nichts zum anderen, für uns interessanteren, aspekt: spiele performance. Warum nicht? Ist das ding zwar schnell, reisst aber doch nicht die erwarteten bäume aus weil es halt in erster linie auf GPGPU leistung ausgelegt wurde? Ich könnte es mir durchaus vorstellen.

Und bei heise stand, dass nvidia laut eigenen aussagen noch [U]mindestens[/U] bis jahresende braucht um damit auf den markt zu kommen. Man scheint es also immer noch nicht ganz genau zu wissen, aber analysten und investoren soll man die karten schon mal gezeigt haben. Auch nicht wirklich typisch für nvidia.
#12
Registriert seit: 20.08.2006

Flottillenadmiral
Beiträge: 5372
Gibt ja auch ein Video dazu von NVidia:
http://www.youtube.com/watch?v=qStm5xoDHFU
#13
Registriert seit: 01.06.2009

Korvettenkapitän
Beiträge: 2494
Wenn die 360 auch noch viel schneller ist als die 5870 bzw nicht viel langsamer als die 380 also alles so wie beim letzten launch ist mir das Egal .
Dann warte ich bis der Erste run vorbei ist und hol die 360 schliesslich ist die 260 auch schnell genug immer noch obwohl meine nur 192 shader hat .
Und wenn man sich das ganze im vergleich mit der 5870 anschaut ist der Vorsprung der 285 zur 260 sowieso nicht der Rede wert .

MfGamiac
#14
Registriert seit: 12.05.2007

Bootsmann
Beiträge: 592
@The Specialist of all:
Ich würde gern GPGPU nutzen! Fürs Encoding gibts nichts schnelleres. Ich hab noch ne alte 8800GTS 640, die ist nur eingeschränkt GPGPU-fähig. Deshalb freue ich mich sehr über OpenCL, bzw. dass es in D3D11 integriert ist. Jetzt müssen nur noch entsprechende Programme rauskommen. Alles, was parallel berechenbar ist, wird von GPGPU profitieren. So kommt man vergleichsweise preiswert an massive Rechenpower. Ne Workstation mit mehreren Xeons ist mir zu teuer. Lieber gebe ich 600 Euro aus und hab noch mehr Leistung auf einer einzigen Karte, als mehrere tausend für 2 oder mehr CPUs mit entsprechendem Mainboard ;)
#15
customavatars/avatar38507_1.gif
Registriert seit: 12.04.2006

Flottillenadmiral
Beiträge: 5884
Zitat Megamiac;12988865
Wenn die 360 auch noch viel schneller ist als die 5870 bzw nicht viel langsamer als die 380 also alles so wie beim letzten launch ist mir das Egal .

Wie beim letzten Launch? Also die GTX 260 soll viel schneller gewesen sein als die HD 4870? Das musst du falsch in Erinnerung haben. Beide lagen gleich auf.
#16
customavatars/avatar44198_1.gif
Registriert seit: 04.08.2006
Wien
Kapitänleutnant
Beiträge: 1612
Wenn ich mir die Daten so ansehe hör ich in im Hinterkopf irengdwen immer \"Raytracing! Raytracing!\" rufen ;)
Wenn ich mir zb die 512 CUDA-Cores anseh muss ich zwangsläufig an Larrabee denken, die geht man ja auch davon aus der er eher auf Raytracing als auf klassische Rasterization (verdammt wie schreibt man das?) ausgelegt ist.

Spannend!
#17
Registriert seit: 07.09.2004

Flottillenadmiral
Beiträge: 4396
Leute, vom G300 wissen wir immer noch nichts - das hier ist der GT300 ( Tesla ).
#18
customavatars/avatar118151_1.gif
Registriert seit: 14.08.2009
bei Köln
Stabsgefreiter
Beiträge: 258
Warum nicht....600,- Euronen hat schon damals meine 8800GTX gekostet? ;)
#19
customavatars/avatar17222_1.gif
Registriert seit: 02.01.2005
in deinem PC
Moderator
[online]-Redakteur
Kontrolletti vom Dienst
Beiträge: 9754
Zitat Robo;12991571
Leute, vom G300 wissen wir immer noch nichts - das hier ist der GT300 ( Tesla ).


Wobei sich der GT300 und der G300 ziemlich ähnlich sein werden, zumindest vom Grundaufbau... ;)
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

Roundup: 5x GeForce GTX 1070 mit Custom-Design im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/5X-GTX1070/GTX1070_CUSTOM_ROUNDUP-TEASER

Nachdem wir bereits eine Reihe von Boardpartner-Karten der NVIDIA GeForce GTX 1080 ausführlich getestet haben, holen wir gleiches nun für das kleinere Schwestermodell nach, denn auch von der NVIDIA GeForce GTX 1070 gibt es viele Custom-Modelle mit höheren Taktraten, eigenen Kühlsystemen und... [mehr]

Drei Custom-Modelle der GeForce GTX 1060 im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/3X-GTX1060/GTX1060_ROUNDUP_TEST-TEASER

Anders als bei der GeForce GTX 1080 und GeForce GTX 1070 trudelten wenige Stunden nach unserem Test zur Founders Edition der NVIDIA GeForce GTX 1060 schon die ersten Boardpartner-Karten mit teils höheren Taktraten, eigenem Kühlsystem und überarbeitetem Platinenlayout ein. Sie dürften... [mehr]

NVIDIA GeForce GTX 1080 mit Pascal-Architektur im XXL-Test

Logo von IMAGES/STORIES/LOGOS-2016/GEFORCE-GTX-1080

Heute ist es soweit: NVIDIA läutet mit der GeForce GTX 1080 und GTX 1070 auf Basis der Pascal-Architektur den diesjährigen Neustart bei den Grafikkarten ein. In Kürze wird wohl auch AMD seinen Beitrag zu diesem Thema leisten. Vor zehn Tagen lud NVIDIA die gesammelte Fachpresse nach Austin ein... [mehr]

Roundup: 5x GeForce GTX 1080 im Custom-Design im Test

Logo von IMAGES/STORIES/LOGOS-2016/GEFORCE-GTX-1080

Nachdem wir uns die Founders Edition der GeForce GTX 1080 und GeForce GTX 1070 bereits angeschaut haben, folgen nun fünf Retail-Modelle, die wir in aller Ausführlichkeit unter die Lupe nehmen wollen. Aus den vielen Boardpartnern und unterschiedlichen Modellen haben wir uns solche von ASUS, EVGA,... [mehr]

AMD Radeon RX 480 im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/RADEON-RX480/RADEON-RX480-REFERENCE-LOGO

Es ist also soweit: AMD startet die großangelegte Zurückeroberung des Grafikkartenmarktes mit der Radeon RX 480, die als erste Grafikkarte der Polaris-Generation mit gleichnamiger Architektur erscheint und die wir uns genauer anschauen können. Dabei versucht sich AMD an einem anderen Ansatz im... [mehr]

NVIDIA GeForce GTX 1080 und GeForce GTX 1070 im SLI

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/PASCAL-SLI/GTX1080-SLI-LOGO

Die beiden aktuell schnellsten Single-GPU-Karten GeForce GTX 1080 und GeForce GTX 1070 liefern eine ausreichende Leistung für die höchsten Auflösungen und Qualitätseinstellungen. Allerdings müssen dabei hin und wieder ein paar Einschränkungen gemacht werden. Um diesen aus dem Weg zu gehen,... [mehr]