Seite 1: NVIDIA legt nach: GeForce GTX 980 Ti im Test

nvidia gtx980ti logoBei NVIDIA scheint man einem regelmäßigen und durch längere Zeiträume getrennten Veröffentlichungsrahmen entkommen zu sein. Pünktlich zum Start der Computex präsentiert man die GeForce GTX 980 Ti als neues Consumer-Flaggschiff. Auch sie verwendet wie die GeForce GTX Titan X (zum Test) den Maximalausbau der "Maxwell"-Architektur, wurde allerdings in einigen Bereichen beschnitten - vor allem beim Grafikspeicher bewegen wir uns mit 6 GB wieder in einem üblichen Rahmen. Sie soll die schnellste Grafikkarte für 4K/UltraHD-Auflösungen sein und sich vor allem durch einen geringeren Preis gegenüber der GeForce GTX Titan X absetzen können. Wir haben uns die Leistung der neuen GeForce GTX 980 Ti genauer angeschaut und können so am Ende auch ein Urteil fällen, welches nun die besste Grafikkarte aus dem Hause NVIDIA ist: GeForce GTX 980, GTX 980 Ti oder GeForce GTX Titan X.

Im September 2014 kündigte man mit der GeForce GTX 980 und GTX 970 (zum Test) die erste Welle der 2. Generation der "Maxwell"-Architektur an, denen im Frühjahr die beiden gegensätzlichen GeForce GTX 960 (zum Test) und GeForce GTX Titan X (zum Test) folgten. Mit GM206, GM204 und nun GM200 hat man die immer besser werdende Fertigung bei TSMC offenbar recht schnell ausnutzen können. Was als GM200 für die GeForce GTX Titan X oder Quadro M6000 nicht vollends brauchbar ist, kann nun als GeForce GTX 980 Ti verwendet werden. Abhängig von der Nachfrage fertigt NVIDIA natürlich auch gezielt auf die abgespeckte GM200-Variante.

Bereits auf den ersten Blick zeigt sich: NVIDIA verwendet bei der Referenzversion der GeForce GTX 980 Ti die gleiche Optik und das gleiche Kühldesign wie bei der GeForce GTX 970, GTX 980 und GTX Titan X. Auf die Details werden wir später noch genauer eingehen. Bereits jetzt aber können wir verraten, dass die GeForce GTX 980 Ti auch von den Herstellern in eigenen Designs angeboten werden darf. Wir werden also wieder eine Vielzahl von unterschiedlichen Modellen sehen. Mit Takt und Kühlung werden die Hersteller also wieder versuchen sich gegenseitig zu übertrumpfen und dies bringt sicherlich auch wieder Schwung in den Markt.

Besonders gespannt aber sind wir auch auf den baldigen Vergleich der aktuellen NVIDIA-Flaggschiffe gegen das, was AMD in Petto hat. Die Rede ist bei "Fiji" natürlich von einer weiter ausgebauten "Graphics Core Next"-Architektur sowie der erstmaligen Verwendung von High Bandwidth Memory (HBM). Aber dazu werden wir vermutlich erst in wenigen Tagen oder Wochen kommen. Nun wollen wir uns auf die GeForce GTX 980 Ti konzentrieren und beginnen wie immer mit einer ausführlichen Beschreibung der technischen Daten.

Architektonische Eckdaten

NVIDIA GeForce GTX 980 Ti
Straßenpreis ca. 740 Euro
Homepage www.nvidia.de
Technische Daten
GPU GM200 (GM200-310-A1)
Fertigung 28 nm
Transistoren 8 Milliarden
GPU-Takt (Base Clock) 1.000 MHz
GPU-Takt (Boost Clock) 1.075 MHz
Speichertakt 1.750 MHz 
Speichertyp GDDR5
Speichergröße 6 GB
Speicherinterface 384 Bit
Speicherbandbreite 336,6 GB/s
DirectX-Version 12
Shadereinheiten 2.816
Textur Units 176
ROPs 96
Pixelfüllrate 96 GPixel/s
SLI/CrossFire SLI

NVIDIA verwendet wie bei der GeForce GTX Titan X auch bei der GeForce GTX 980 Ti die GM200-GPU. Hier allerdings trägt sie die Bezeichnung GM200-310-A1 und weißt sich damit klar als geringere Ausbaustufe innerhalb der GM200-Serie aus. NVIDIA lässt die GPU weiterhin in 28 nm bei TSMC fertigen, was in Anbetracht der 8 Milliarden Transistoren noch immer beeindruckend ist.

Nicht 3.072 wie bei der GeForce GTX Titan X, sondern 2.816 Shadereinheiten sollen in der GPU der GeForce GTX 980 Ti arbeiten. Diese ergeben sich aus 6 Graphics Processing Cluster (GPC) sowie 22 Maxwell Streaming Multiprozessoren. 4 SMM-Blöcke x 22 SMM x 32 ALUs ergeben die 2.816 Shadereinheiten der GeForce GTX 980 Ti. Jeder SMM besitzt zusätzlich jeweils acht Textureinheiten, womit wir auf insgesamt 176 dieser Einheiten kommen. Jeweils 16 ROPs zu jedem 64-Bit-Block des insgesamt 384 Bit breiten Speicherinterfaces ergeben eine Gesamtzahl von 96 ROPs.

Blockdiagramm der GM200-GPU auf der GeForce GTX 980 Ti
Blockdiagramm der GM200-GPU auf der GeForce GTX 980 Ti mit den zum Vollausbau fehlenden zwei SMM

Die GM200-GPU auf der GeForce GTX 980 Ti arbeitet mit einem Basis-Takt von 1.000 MHz und soll per GPU-Boost auf mindestens 1.075 MHz kommen. Damit ergeben sich in dieser Hinsicht gewisse Parallelen zur GeForce GTX Titan X, die mit den gleichen Taktraten arbeitet. Den Leistungsunterschied müssen beiden Karten als aus der unterschiedlichen Anzahl an Shadereinheiten, den weiteren architektonischen Merkmalen sowie dem geringeren Speicherausbau gewinnen.

Die GPU der GeForce GeForce GTX 980 Ti bietet das sogenannte Full Feature Set der "Maxwell"-Architektur. Der Chip bietet also fast alle geplanten Ausbaustufen, die auch bei der GeForce GTX Titan X verwendet werden. Dazu gehört der 3 MB große L2-Cache, der bei der GeForce GTX 980 2 MB groß ist und bei der GeForce GTX 970 aufgrund der Einschränkungen der Speicherbandbreite gar nur 1.792 kB misst. Verblieben ist man aber bei einer Bandbreite von 512 Byte pro Takt zu diesem Cache.

Das 384 Bit breite Speicherinteface befindet insgesamt 6 GB an GDDR5-Speicher an. Dieser wird mit einem Takt von 1.750 MHz betrieben. Offenbar verzichtet auch NVIDIA auf den Einsatz eines schnelleren Speichers mit 2.000 MHz, der sowohl bei SK Hynix als auch bei Samsung bereits in der Massenproduktion befindet. High Bandwidth Memory ist bei NVIDIA erst in der nächsten Generation ein Thema, die als "Pascal" im kommenden Jahr erscheinen soll. Bei einem Takt von 1.750 MHz, angebunden über 384 Bit, kommen wir auf eine Speicherbandbreite von 336,5 GB pro Sekunde für die GeForce GTX 980 Ti.

Die maximale Leistungsaufnahme der GeForce GTX 980 Ti wird von NVIDIA mit 250 Watt angegeben. Weiterhin ist sie natürlich zur Multi-GPU-Technologie SLI kompatibel und kann mit einer, zwei und drei weiteren Karten kombiniert werden.

GPU, PCB und Speicher der GeForce GTX 980 Ti
GPU, PCB und Speicher der GeForce GTX 980 Ti

Im Vergleich zur Maxwell-Architektur der 1. Generation leicht vergrößert hat man den Shared Memory eines jeden SMM. Dieser ist nun 96 kB und nicht mehr nur 64 kB groß. Ebenfalls eine Rolle spielen soll die Polymorph Engine in Version 3.0. Die PolyMorph-3.0-Engine ist maßgeblich verantwortlich für Vertex-Fetch, Tessellation, Attribute-Setup, Viewport-Transform und den Stream-Output. Sind die SMM-Cluster und die PolyMorph-3.0-Engine durchlaufen, wird das Ergebnis an die Raster-Engine weitergeleitet. In einem zweiten Schritt beginnt dann der Tessellator mit der Berechnung der benötigten Oberflächen-Positionen, die dafür sorgen, dass je nach Abstand der nötige Detailgrad ausgewählt wird. Die korrigierten Werte werden wiederum an das SMM-Cluster gesendet, wo der Domain-Shader und der Geometrie-Shader diese dann weiter ausführen. Der Domain-Shader berechnet die finale Position jedes Dreiecks, indem er die Daten des Hull-Shaders und des Tessellators zusammensetzt. An dieser Stelle wird dann auch das Displacement-Mapping durchgeführt. Der Geometrie-Shader vergleicht die errechneten Daten dann mit den letztendlich wirklich sichtbaren Objekten und sendet die Ergebnisse wieder an die Tessellation-Engine für einen finalen Durchlauf. Im letzten Schritt führt die PolyMorph-3.0-Engine die Viewport-Transformation und eine perspektivische Korrektur aus. Letztendlich werden die berechneten Daten über den Stream-Output ausgegeben, indem der Speicher diese für weitere Berechnungen freigibt. Mit diesem Prozess verbunden sind zahlreiche Render-Features, auf die wir auf den kommenden Seiten aber noch ausführlich kommen.

Noch einmal zurück auf die einzelnen SMM-Blöcke: Jedem 32er Block stehen ein Instruction Buffer und ein Warp Schedular zur Verfügung. Jeweils zwei Dispatch Units haben Zugriff auf 16.384 Register mit jeweils 32 Bit. Auch hier lohnt wieder ein Blick auf die "Kepler"-Architektur. 128 Shaderheinheiten werden mithilfe von vier Warp Schedulern und acht Dispatch Units über 65.536 Register bei ebenfalls 32 Bit die Daten bzw. Rechenaufgaben zugeteilt. Jeder Shadereinheit stehen bei Maxwell also theoretisch 512 Register zur Verfügung, während es bei Kepler nur rund 341 sind. Eben solche Maßnahmen sollen auch dazu führen, dass jeder Shader bis zu 35 Prozent schneller arbeiten kann. Weiterhin einen Einfluss hat auch das Verhältnis zwischen Shadereinheiten und den sogenannten Special Function Units (SFU). Während dies bei Kepler 6/1 beträgt, liegt das Verhältnis bei Maxwell bei 4/1. Gleiches gilt auch für die Load/Store Units (LD/ST).

Natürlich bietet die GeForce GTX 980 Ti aufgrund der Verwendung der "Maxwell"-Architektur auch sämtliche Features, die wir von der GeForce GTX Titan X, GTX 980, GTX 970 und GTX 960 kennen. Weitere Details dazu sind in den bisher erschienen Artikeln zu finden:

- 256 Bit Speichercontroller - Speicherkomprimierung
- DSR (Dynamic Super Resolution)
- MFAA (Multiframe Sampled Anti-Aliasing)
- VXGI (Voxel Global Illumination)
- DirectX 12
- GameWorks und PhysX
- VR Direct
- H.265 und 4K-Streaming