Seite 1: XXL-Test: NVIDIA GeForce GTX Titan im 3-Way-SLI

titan-logo

Die Titanen bilden das älteste Göttergeschlecht der Theogonie der griechischen Mythologie. Oft werden sie als Riesen in Menschengestalt beschrieben, die über die legendäre Goldene Ära herrschten. NVIDIA hat "Titan" als Namen seiner neuesten Desktop-Grafikkarten gewählt. Die GeForce GTX Titan soll das Non-Plus-Ultra der aktuellen GPU-Entwicklung darstellen und NVIDIA gibt in Sachen Performance und Preisgestaltung an, keinerlei Kompromisse eingehen zu wollen. In der griechischen Mythologie verloren die Titanen den Kampf gegen die Olympier und wurden in die Unterwelt verbannt. Ob die GeForce GTX Titan dieses Schicksal mit ihren Namensgebern teilen muss, klären wir in diesem Artikel.

Aufgrund des NVIDIA-NDAs für die GeForce GTX Titan mussten wir den Test in zwei Teile trennen, da wir zunächst einmal nur die technischen Daten und Fotos präsentieren durften. Natürlich konnten wir anhand dessen auch schon die architektonischen Details besprechen. Alle Messwerte und Benchmarks sind nun - zwei Tage später - aber nun im Anschluss an die ausführliche theoretische Betrachtung erlaubt und finden sich nun ebenso in diesem Artikel. 

NVIDIA GeForce GTX Titan
NVIDIA GeForce GTX Titan

Mitte Mai des vergangenen Jahres erwähnte NVIDIA auf der GTC 2012 erstmals die Trennung der "Kepler"-Architektur in zwei Bereiche: Desktop (GK10x) und GPU-Computing (GK11x). Gerüchte über einen zweiten, größeren Chip gab es auch damals schon. Die ersten Daten nannte NVIDIAs CEO Jen-Hsun Huang: 7,1 Milliarden Transistoren, 13 oder 14 SMX-Cluster, 384 Bit Speicherinterface und eine dreifach höhere Double-Precision-Performance gegenüber "Fermi". Schon damals äußerte sich NVIDIA positiv über die Möglichkeit, dass GK110 in einigen Monaten auch als GeForce-Produkt das Licht der Welt erblicken könnte. Doch klar war auch, es würde noch etwas dauern, denn bislang war nicht einmal ein Tesla-Produkt in Aussicht gestellt worden.

NVIDIA GeForce GTX Titan
NVIDIA GeForce GTX Titan

Dies änderte sich erst im November des vergangenen Jahres, denn nun wurden die Tesla K20 und K20X offiziell vorgestellt. Anhand der technischen Daten konnte sich jeder nun ausmalen, wie ein GeForce-Produkt aussehen könnte. Unklarheit herrschte ab sofort eigentlich nur noch über die Performance in Spielen, denn anhand der für das GPU-Computing vorgesehenen Benchmarks lässt sich dies nur schwer errechnen. Zumindest aber war bereits zu diesem Zeitpunkt klar, dass ein entsprechendes GeForce-Produkt über maximal 2688 CUDA-Kerne, 6144 MB an Grafikspeicher und ein 384 Bit breites Speicherinterface verfügen wird. Über die Taktraten ließen sich aufgrund der unterschiedlichen Anwendungen einer Tesla- und einer GeForce-Karte noch keinerlei Rückschlüsse ziehen.

Heute nun fallen die letzten Hüllen und wir wollen damit beginnen uns die GeForce GTX Titan bzw. deren GK110-GPU einmal genauer anzuschauen. 

Architektonische Eckdaten

Zunächst einmal werfen wir einen Blick auf die GK110-GPU:

GK110 Die
Die-Shot des GK110

Mit dem GK110 fertigt NVIDIA einen der derzeit komplexesten und größten Chips. 7,1 Milliarden Transistoren sind in ihm untergebracht und selbst bei einer Fertigung in 28 nm misst der Chip etwas über 551 mm². In Sachen Größe können allenfalls der IBM zEC12 mit 597 mm² (32 nm) oder der Intel Itanium "Poulson" mit 544 mm² (32 nm) mithalten. Aber auch der GT200 der GeForce-200-Serie war mit 576 mm² keine kleine GPU, wurde allerdings noch in 55 nm gefertigt.

Bei der Anzahl der Transistoren ist GK110 bei den GPUs ungeschlagen und auch modernste Prozessoren kommen allenfalls auf 5 Milliarden Transistoren (62-Kerner Intel Xeon Phi). Aber Größe und Anzahl der Transistoren sagt natürlich noch wenig über die Leistungsfähigkeit aus. Vorher schauen wir uns aber an, wie sich eine solch komplexe GPU zusammensetzt.

GK110 Blockdiagramm
GK110 Blockdiagramm der GeForce GTX Titan

Genau wie bei jeder GPU auf Basis der "Kepler"-Architektur bleibt es bei den SMX-Cluster, die jeweils 192 CUDA-Kerne beheimaten. Die GPU der GeForce GTX Titan besitzt 14 dieser SMX-Cluster und kommt somit auf 2688 CUDA-Kerne. Das Blockdiagramm von GK110 zeigt in den äußeren Bereichen das PCI-Express-3.0-Host-Interface sowie die sechs Speicher-Controller, die insgesamt auf eine Breite von 384 Bit kommen. Die 14 SMX-Cluster sind in fünf Gruppen aus sogenannten Graphics-Processing-Clustern zusammengefasst.

Für die beiden Tesla-Modelle auf Basis von GK110 erreichte NVIDIA einen enormen Gewinn an Double-Precision-Performance und die im Vergleich zu GK104 nur moderate Steigerung bei der Single-Precision-Performance erklärt sich durch eine neue Ausrichtung des FP32- zu FP64-Verhältnisses. Mit GK110 setzte NVIDIA zunächst voll auf den professionellen Markt und den Einsatz im HPC (High Performance Computing). Die erste Ausbaustufe von "Kepler" in Form des GK104-GPU auf der GeForce GTX 680 ist also im eigentlichen Sinne für den Einsatz als GeForce-GPU gedacht, wo die Single-Precision-Performance für das Rendering eine entscheidende Rolle spielt. Das Verhältnis Double-Precision zu Single-Precision ist von 1/2 auf 1/24 reduziert worden. Zu guter Letzt ist bei GK104 auch nur der Grafikspeicher ECC geschützt, nicht aber die Caches. Nun will NVIDIA GK110, mit seiner speziellen Ausrichtung auf den professionellen Markt, auch als GeForce-Produkt etablieren.

GK110 SMX-Cluster Blockdiagramm

Um eine höhere Double-Precision-Performance zu erreichen, hat NVIDIA pro SMX-Cluster nun 64 Floating-Point-Kerne eingebaut. Bei GK104 waren es nur acht pro Cluster. Zusammen mit der höheren Anzahl an Clustern sorgt dies für einen enormen Schub bei der Double-Precision-Performance. NVIDIA bleibt auch seiner skalaren Architektur bzw. der "Superscalar Dispatch Method" treu, die wir erstmals bei GF104 sahen und welche die Berechnungen etwas fehleranfälliger machen. Dadurch wird man etwas abhängiger von Thread Level Parallelism (TLP) und Instruction-Level Parallelism (ILP) bzw. der ganzzahligen linearen Optimierung.

Per Default laufen die Double-Precision-CUDA-Kerne allerdings nur mit 1/8 des Taktes. Im NVIDIA Control Panel ist in den 3D-Settings ein Menüpunkt namens "CUDA - Double Precision" zu finden. Wird dieser aktiviert, laufen die Double-Precision-CUDA-Kerne mit einem höheren Takt, allerdings nicht dem vollen 3D-Takt. Dies ist also nur für Nutzer interessant, die für wissenschaftliche Anwendungen die volle Double-Precision-Performance benötigen. Spieler werden diese Option nicht nutzen wollen, da die Rendering-Performance durch den niedrigeren Takt reduziert wird.

NVIDIA Control Panel
Aktivierung der Double-Precision-CUDA-Kerne im NVIDIA Control Panel

Jedes SMX-Cluster verfügt außerdem über einen 64 kB großen L1-Cache und einen 48 kB Read-Only Data Cache. Im Vergleich zu GK104 hat man den L1-Cache also nicht angetastet, verpasst den Clustern in GK110 aber einen 48 kB großen Read-Only Data Cache. Pro SMX-Cluster bleibt es auch bei den 16 Textur-Einheiten, sodass GK110 derer maximal 240 besitzt. Die Double-Precision-Performance wird auch durch eine Änderung an den Registern erhöht. So ist die Anzahl der Register pro SMX-Cluster mit 65.536 im Vergleich zu GK104 identisch geblieben, dafür aber darf bei GK110 pro Thread auf 255 Register zugegriffen werden - bei GK104 sind es nur 63.

Was das für die reine Rechenleistung bedeutet, zeigt folgender Vergleich. Die GeForce GTX 680 kommt bei einfacher Genauigkeit auf eine Performance von 3,09 TFLOPs. Die Double-Precision-Performance liegt sogar nur bei 128 GFLOPs. GeForce GTX Titan erreicht eine Single-Precision-Performance von 4,5 TFLOPs. Bei doppelter Genauigkeit sind es 1,5 TFLOPs.

 

NVIDIA GeForce GTX Titan
Straßenpreis zirka 950 Euro
Homepage www.nvidia.de
Technische Daten
GPU GK110 (GK110-400-A1)
Fertigung 28 nm
Transistoren 7,1 Milliarden
GPU-Takt (Base Clock) 837 MHz
GPU-Takt (Boost Clock) 876 MHz
Speichertakt 1502 MHz
Speichertyp GDDR5
Speichergröße 6144 MB
Speicherinterface 384 Bit
Speicherbandbreite 288,4 GB/Sek.
DirectX-Version 11.0
Shadereinheiten 2688 (1D)
Textur Units 224
ROPs 48
Pixelfüllrate 40,2 GPixel/Sek.
SLI/CrossFire SLI
TDP 250 Watt

 

Die GK110-GPU auf der GeForce GTX Titan arbeitet mit einem Basis-Takt von 837 MHz auf allen 2688 CUDA-Kernen. GPU-Boost kennen wir bereits von den GK104-GPUs und wird auch bei der GeForce GTX Titan genutzt. Auf mindestens 876 MHz kommt die GPU hier, was laut NVIDIA aber eine sehr konservative Angabe ist. Oft sollen 1000 MHz und mehr erreicht werden. Die 224 Textureinheiten und 48 ROPs ergeben sich aus der Anzahl der SMX-Cluster und sind natürlich ebenfalls eine deutliche Steigerung gegenüber der GeForce GTX 680 (128/32).

Der Speicher arbeitet wie üblich mit 1502 MHz und kommt dank 384-Bit-Anbindung auf eine Speicherbandbreite von 288,4 GB/Sek. Insgesamt stehen nun 6144 MB GDDR5-Grafikspeicher zur Verfügung. Damit öffnet NVIDIA auch den vermeintlichen Flaschenhals gegenüber den Karten von AMD, die meist mit mehr Speicher ausgestattet sind als die Modelle von NVIDIA.

NVIDIA gibt eine TDP von 250 Watt an. Aufgrund der komplexeren GPU ist dies im Vergleich zur GeForce GTX 680 (195 Watt) zunächst einmal auch verständlich.