> > > > NVIDIA präsentiert Next-Generation GPU Fermi bzw. GT300

NVIDIA präsentiert Next-Generation GPU Fermi bzw. GT300

Veröffentlicht am: von

nvidiaSoeben hat NVIDIA einen Einblick auf das gegeben, was uns in der nächsten GPU-Generation erwarten wird. Demnach hat man unter dem Codenamen Fermi die dritte Generation seiner CUDA-Compute- und Grafik-Architektur entwickelt. Dabei greift man auf die Erfahrungen bei der Entwicklung des G80 und GT200 zurück und verbessert deren Architektur-Konzepte weiter. Demnach ist man mit der Performance der Single-Precision-Fließkomma-Performance schon sehr zufrieden, allerdings verlangten zahlreiche Anwendungszwecke immer mehr Double-Precision-Performance. Hinzu kommt die Notwendigkeit nach einer Fehlererkennung (ECC) im Speicher, was die Verwendung solcher GPUs in einem Datacenter möglich machen würde, die auf konsistente Daten angewiesen sind. Bisher verfügten die GPUs über nur 16 kB shared-Cache, was vielen Entwicklern deutlich zu wenig war. Hinzu kommt, dass dieser Speicher nicht von jeder Compute-Software verwendet werden konnte und somit ungenützt blieb.

Aus diesen und noch einigen Anfragen mehr entwickelte sich Fermi. Die technischen Daten sind im folgender Übersicht gegen G80 und GT200 miteinander verglichen.

Fermi_1_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

3 Milliarden Transistoren arbeiten in der Fermi-GPU, die vermutlich in 40 nm bei TSMC gefertigt wird. Im Vergleich zu AMDs RV870 mit 2,15 Milliarden Transistoren noch einmal eine deutliche Steigerung. Gegenüber dem GT200 entspricht dieser einer Verdopplung. Die Doube-Precision-Fließkomma-Performance konnte um den Faktor acht gesteigert werden. Bei der Single-Precision Fließkomma-Performance gibt man sich mit einer Verdopplung zufrieden. Die Größe des shared-Memory ist vergrößert worden. Hinzugekommen ist ein L1- und L2-Cache. Der Speicher verfügt nun auch über eine Fehlererkennung (ECC).

Fermi_3_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Maßgeblich verantwortlich zur Steigerung der Performane sind die 512 Shader-Prozessoren. Diese setzen sich aus 16 Streaming-Multiprozessoren (SM) zusammen, die wiederum aus 32 Shader-Prozessoren bestehen. Jeder Shader-Prozessor besteht aus einer Integer Arithmetic Logic Unit (ALU) und einer Floating Point Unit (FPU). Mit der neuen Arithmetik erfüllt NVIDIA den neuen IEEE 754-2008 Standard und erlaubt so Fused Multiply-Add (FMA) Funktionen, die sowohl Single- als auch Double-Precision durchführen können. FMA ermöglicht auch Multiply-Add (MAD) Funktionen, die sowohl eine Multiplikation als auch eine Addition mit nur einer Rundung berechnen können.

Sogenannte Special Function Units (SFUs) übernehmen Berechnungen, die keiner Multiplikation oder Addition entsprechen. Vier dieser SFUs stehen in der Fermi-GPU zur Verfügung. Jede SFU kann pro Takt und Thread eine Berechnung durchführen. Größere Befehle können über bis zu acht Takte ausgedehnt werden. Damit die Dispatch Unit in dieser Zeit nicht auf die SFUs warten muss und weiterhin die übrigen Shader-Prozessoren versorgen kann, arbeiten die SFU-Pipelines getrennt von dieser.

Zu den SMs und SFUs gesellen sich noch Load/Store Units. Jeder Streaming-Multiprozessor verfügt über 16 Load/Store Units, die für 16 Threads pro Takt die Quell- und Ziel-Adressierung im Speicher und Cache berechnen.

Fermi_2_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Die Speicheranbindung setzt sich aus sechs 64-Bit-Speichercontrollern zusammen. Insgesamt ist das Speicherinterface somit 384-Bit breit und kann bis zu 6 GB GDDR5-Speicher anbinden. Je nach Ausbaustufen können also 1,5, 3 oder die vollen 6 GB verbaut werden. Das Host-Interface sorgt für die Verbindung der GPU mit dem PCI-Express-Interface und somit an den Rest des Systems. Der GigaThread Global-Scheduler verteilt Thread-Blöcke an den Streaming-Multiprozessoren-Scheduler, wo alle anfallenden Operationen auf die Shader-Prozessoren verteilt werden.

Fermi_4_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Aufgrund der immer größer werdenden Nachfrage nach Double-Precision-Performance, hat NVIDIA auf diesen Umstand besonderen Wert gelegt. Die Performance der Fermi-GPU kann theoretisch maximal knapp achtmal höher sein als beim GT200. In der Praxis zeigt sich dann obiges Bild.

Fermi_5_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Die Streaming-Multiprozessoren des Fermi verfügen über jeweils zwei Warp Scheduler und Instruction Dispatch Units. Ein Warp ist eine Zusammenstellung von Threads, die sich die gleiche Pipeline innerhalb der SIMT-Architektur (Single Instruction, Multiple Thread) teilen. Der Warp Scheduler wählt sich zwei Warps und verteilt die zu berechnenden Funktionen auf bis zu 16 Shader-Prozessoren, 16 Load/Store Units oder die vier SFUs.

Fermi_6

Beim RV870 ebenfalls verwendet wird ein shared-Memory. In der Fermi-GPU stehen 64 kB shared-Memory pro Streaming-Multiprozessor zur Verfügung. 48 kB sind dabei frei konfigurierbar, 16 kB werden dann als L1-Cache verwendet. Es besteht aber ebenfalls die Möglichkeit 16 kB shared-Memory zu verwenden, dann sind 48 kB L1-Cache verfügbar.

Fermi_7_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Ein shared-Memory sorgt dafür, dass Daten, die von mehreren Threads verwendet werden, nicht mehr vom Speicher in die GPU und zurück geschrieben werden müssen, sondern sozusagen auf der GPU verbleiben können. Dadurch können Berechnungen deutlich schneller ausgeführt werden.

Die Integrität von Daten ist besonders bei wissenschaftlichen Anwendungen von besonderer Wichtigkeit. So ist die Fehlererkennung (ECC) im Speicher ein logischer Schritt. Selbst in modernen Speichertypen wie GDDR5 oder innerhalb der Speicher der GPU kann es dazu kommen, dass ein Bit umkippt und somit die Integrität des Speichers verloren geht. ECC erkennt diesen Fehler und korrigiert diesen.

Fermi_8_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Moderne GPUs erlauben nicht nur das Ausführen eines Programms auf der Grafikkarte, sondern gleich mehrerer. Über sogenannte Kernel Execution ist dies nun auch auf der Fermi-GPU möglich. Aufgaben die durch eine Kernel Execution an die GPU weitergegeben werden, werden also nicht mehr seriell abgearbeitet, sondern können gleichzeitig bearbeitet werden.

Eine maßgebliche Rolle bei der Performance in Multi-Threaded-Operationen spielt das Application Context Switching. Dies geschieht laut NVIDIA deutlich schneller als in vorangegangenen Generationen. Zwischen 10 und 20 Mikrosekunden beträgt die Umschaltzeit die benötigt wird, um die Kommunikationen zwischen zwei unterschiedlichen Kerneln zu gewährleisten. Dies ist beispielsweise der Fall, wenn Physik- und Grafik-Berechnung miteinander synchronisiert werden müssen.

Fermi_9_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Um die Programmierung von CUDA C, OpenCL und DirectCompute zu gewährleisten, präsentiert NVIDIA mit Nexus eine Dev-Kit um unter Microsoft Visual Studio entsprechend parallelisierte Software zu programmieren.

Zum Abschluss noch folgendes: Bisher hat NVIDIA nur technische Daten zu Fermi preis gegeben. Möglichte Daten zu entsprechenden Grafikkarten, dem Takt der GPU oder des Speichers, sind bisher noch nicht bekannt. Für die Beurteilung der Leistung in 3D-Spielen wären Informationen über ROPs und TMUs ebenfalls hilfreich. Ebenso ein Termin oder die Namensgebung dieser Karten fehlt bisher. Besonders interessant wären auch Angaben zum Stromverbauch. Bei einer derart hohen Anzahl an Transistoren und trotz 40-nm-Fertigung dürfte dieser zumindest unter Last neue Rekorde brechen.

NVIDIA veranstaltet derzeit in den USA die GPU Technology Conference. Zu dieser sind nur einige wenige Journalisten eingeladen worden, wir erhielten gegen 19:30 Uhr diese Informationen mit der Bitte, sie bis 22:00 Uhr zurück zu halten. Also hatten wir knapp 2,5 Stunden um obige Informationen zusammen zu fassen und euch zu präsentieren. Wir würden uns wünschen NVIDIA hätte hier einen etwas anderen Weg eingeschlagen und uns früher informiert. Dann wäre auch Zeit geblieben die Informationen deutlich informativer aufzubereiten.

Weitere Links:

Social Links

Ihre Bewertung

Ø Bewertungen: 0

Tags

es liegen noch keine Tags vor.

Kommentare (19)

#10
Registriert seit: 12.07.2009

Hauptgefreiter
Beiträge: 139
Wer nutzt hier eigentlich gpgpu krams?Das ist doch ehrlich gesagt die Frage.Ka warum die das so anpreisen.D1e 98 % der Leute ist das doch wayne...Was habe ich als Spieler von Cuda?98 % sollte das doch ganricht intressieren.Für SPieler ist das ganze doch unintressant.
#11
customavatars/avatar73489_1.gif
Registriert seit: 25.09.2007

Kapitänleutnant
Beiträge: 1581
Tja, und dann machen auch die aussagen beim letzten conference call sinn, wo man ja meinte, DX11 wäre gar nicht so wichtig, viel wichtiger sei GPGPU. Klang damals schon unterschwellig nach einer strategischen neuausrichtung (die ohnehin kommen muss, der PC spiele markt schrumpft ja eigentlich nur noch und bei den chipsätzen kommen nur noch für mobile devices interessante dinge).

Das teil scheint also ganz schön potent in sachen GPGPU zu sein. Bei heise hat man unter annahme gleicher taktraten wie bei der aktuellen tesla c1060 nicht unbedingt markerschütternde SP und DP werte im vergleich zur 5870 errechnet. Aber auf diese theoretischen zahlenspiele kommt es auch nicht so an (aber war schon wichtig endlich die DP performance aus dem keller zu holen wenn man im HPC sektor mitmischen will). Viel wichtiger sind andere technische neuerungen, würde ich mal sagen.

Aber trotzdem hört man wieder nichts zum anderen, für uns interessanteren, aspekt: spiele performance. Warum nicht? Ist das ding zwar schnell, reisst aber doch nicht die erwarteten bäume aus weil es halt in erster linie auf GPGPU leistung ausgelegt wurde? Ich könnte es mir durchaus vorstellen.

Und bei heise stand, dass nvidia laut eigenen aussagen noch [U]mindestens[/U] bis jahresende braucht um damit auf den markt zu kommen. Man scheint es also immer noch nicht ganz genau zu wissen, aber analysten und investoren soll man die karten schon mal gezeigt haben. Auch nicht wirklich typisch für nvidia.
#12
Registriert seit: 20.08.2006

Flottillenadmiral
Beiträge: 5397
Gibt ja auch ein Video dazu von NVidia:
http://www.youtube.com/watch?v=qStm5xoDHFU
#13
Registriert seit: 01.06.2009

Korvettenkapitän
Beiträge: 2494
Wenn die 360 auch noch viel schneller ist als die 5870 bzw nicht viel langsamer als die 380 also alles so wie beim letzten launch ist mir das Egal .
Dann warte ich bis der Erste run vorbei ist und hol die 360 schliesslich ist die 260 auch schnell genug immer noch obwohl meine nur 192 shader hat .
Und wenn man sich das ganze im vergleich mit der 5870 anschaut ist der Vorsprung der 285 zur 260 sowieso nicht der Rede wert .

MfGamiac
#14
Registriert seit: 12.05.2007

Bootsmann
Beiträge: 592
@The Specialist of all:
Ich würde gern GPGPU nutzen! Fürs Encoding gibts nichts schnelleres. Ich hab noch ne alte 8800GTS 640, die ist nur eingeschränkt GPGPU-fähig. Deshalb freue ich mich sehr über OpenCL, bzw. dass es in D3D11 integriert ist. Jetzt müssen nur noch entsprechende Programme rauskommen. Alles, was parallel berechenbar ist, wird von GPGPU profitieren. So kommt man vergleichsweise preiswert an massive Rechenpower. Ne Workstation mit mehreren Xeons ist mir zu teuer. Lieber gebe ich 600 Euro aus und hab noch mehr Leistung auf einer einzigen Karte, als mehrere tausend für 2 oder mehr CPUs mit entsprechendem Mainboard ;)
#15
customavatars/avatar38507_1.gif
Registriert seit: 12.04.2006

Vizeadmiral
Beiträge: 6258
Zitat Megamiac;12988865
Wenn die 360 auch noch viel schneller ist als die 5870 bzw nicht viel langsamer als die 380 also alles so wie beim letzten launch ist mir das Egal .

Wie beim letzten Launch? Also die GTX 260 soll viel schneller gewesen sein als die HD 4870? Das musst du falsch in Erinnerung haben. Beide lagen gleich auf.
#16
customavatars/avatar44198_1.gif
Registriert seit: 04.08.2006
Wien
Kapitänleutnant
Beiträge: 1615
Wenn ich mir die Daten so ansehe hör ich in im Hinterkopf irengdwen immer \"Raytracing! Raytracing!\" rufen ;)
Wenn ich mir zb die 512 CUDA-Cores anseh muss ich zwangsläufig an Larrabee denken, die geht man ja auch davon aus der er eher auf Raytracing als auf klassische Rasterization (verdammt wie schreibt man das?) ausgelegt ist.

Spannend!
#17
customavatars/avatar13256_1.gif
Registriert seit: 07.09.2004

Flottillenadmiral
Beiträge: 4590
Leute, vom G300 wissen wir immer noch nichts - das hier ist der GT300 ( Tesla ).
#18
customavatars/avatar118151_1.gif
Registriert seit: 14.08.2009
bei Köln
Stabsgefreiter
Beiträge: 266
Warum nicht....600,- Euronen hat schon damals meine 8800GTX gekostet? ;)
#19
customavatars/avatar17222_1.gif
Registriert seit: 02.01.2005
in deinem PC
Moderator
[online]-Redakteur
Kontrolletti vom Dienst
Beiträge: 9754
Zitat Robo;12991571
Leute, vom G300 wissen wir immer noch nichts - das hier ist der GT300 ( Tesla ).


Wobei sich der GT300 und der G300 ziemlich ähnlich sein werden, zumindest vom Grundaufbau... ;)
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

Von ASUS bis ZOTAC: Vier Modelle der GeForce GTX 1050 Ti im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/NVIDIA-GTX1050TI-ROUNDUP/NVIDIA_GTX1050TI_4ER_ROUND_UP-TEASER

Seit Ende Oktober gibt es die aktuelle Pascal-Generation von NVIDIA auch für unter 200 Euro. Tatsächlich bekommt man hier nicht nur viel Leistung fürs Geld, sondern obendrein einen sehr effizienten 3D-Beschleuniger, wie unser Launch-Test zur NVIDIA GeForce GTX 1050 Ti pünktlich zum Marktstart... [mehr]

AMD Radeon RX Vega 56 und Vega 64 im Undervolting-Test

Logo von IMAGES/STORIES/2017/AMD_RADEON_RX_VEGA_64_56_TEST

Unser Test der Radeon RX Vega 64 und Vega 56 hat gezeigt: AMD liefert eine Leistung auf dem Niveau der GeForce GTX 1080 und GeForce GTX 1070, erkauft wird dies aber mit einer deutlich zu hohen Leistungsaufnahme. Derzeit hat AMD bei den Vega-Karten noch viele Baustellen, die vor allem den Treiber... [mehr]

Zwei Modelle der NVIDIA GeForce GTX 1050 Ti im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/EVGA-GTX-1050TI-SC/EVGA_ZOTAC_GTX1050TI_AUFMACHER

Am vergangenen Dienstag rundete NVIDIA sein Pascal-Aufgebot nach unten hin ab und kündigte mit der GeForce GTX 1050 Ti und GeForce GTX 1050 die bislang kleinsten Ableger unter den Pascal-Grafikkarten an. Ab heute werden die neuen Einsteiger-Karten zu Preisen ab 125 bzw. 155 Euro im Handel... [mehr]

MSI GeForce GTX 1060 Gaming X im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/MSI-GTX-1060-GAMING-X/MSI_GEFROCE_GTX_1060_GAMING_X-TEASER

Ob von ASUS, EVGA, Inno3D oder Gigabyte – von nahezu allen großen Grafikkarten-Herstellern konnten wir bereits ein oder mehrere Modelle auf Basis der GeForce GTX 1060 testen. Gefehlt in unserer Liste hat allerdings noch MSI. Das holen wir nun mit einem Test zur MSI GeForce GTX 1060 Gaming X... [mehr]

AMD Radeon RX Vega 64 und RX Vega 56 im Test

Logo von IMAGES/STORIES/2017/AMD_RADEON_RX_VEGA_64_56_TEST

Nun endlich ist es soweit: Was vor gut einem Jahr mit einer ersten Ankündigung begann und ab Ende 2016 konkret wurde, findet nun sein finales Ende in den ersten Tests der Radeon RX Vega 64 und RX Vega 56. AMD ist als einziger Konkurrent zu NVIDIA geradezu zum Erfolg verdonnert. Die Ansprüche an... [mehr]

Ab Werk die schnellste: ZOTAC GeForce GTX 1080 Ti AMP! Extreme Edition im Test

Logo von IMAGES/STORIES/LOGOS-2017/ZOTAC-GTX1080TI-EXTREME-LOGO

Einige Modelle der GeForce GTX 1080 Ti konnten wir uns ja bereits anschauen und damit lässt sich auch ein erster Eindruck zusammenfassen: Die GeForce GTX 1080 Ti ist in der Founders Edition eine gute Karte, die Custom-Modelle beschleunigen sie noch etwas und bieten zudem eine bessere und leisere... [mehr]