Seite 1: NVIDIA Titan V: Volta-Architektur im Gaming-Test

In der letzten Woche hatte NVIDA noch eine Überraschung für uns parat: Die brandneue NVIDIA Titan V wurde vorgestellt. Damit gibt es das erste Consumer-Modell mit der neuen Volta-Architektur, das auch für Spieler interessant sein kann, in erster Linie aber auch professionelle Nutzer ansprechen soll. Wir haben uns die 3.100 Euro Grafikkarte besorgt und testen heute, wie schnell die Volta-Architektur in Spielen ist.

Die NVIDIA Titan V gewährt einen Ausblick auf das, was Spieler 2018 von NVIDIA erwarten dürfen. Bereits mehrfach haben wir versucht darzulegen, dass NVIDIA zukünftig zweigleisig fahren wird – das professionelle Segment mit eigener Hardware versorgt und für Spieler entsprechend abgespeckte bzw. optimierte Varianten vorhalten wird. Die Volta-Architektur könnte ein Ausblick auf diesen Weg sein. Vieles der architektonischen Merkmale nutzen Spiele nicht. Dennoch ist der Ausbau an Shadereinheiten und Speicher vermutlich wegweisend. 

Im Frühjahr präsentierte NVIDIA die GeForce GTX 1080 Ti – gut 12 Monate nachdem man die Pascal-Architektur erstmals in eine GeForce-Karte gegossen hat. Mit der GeForce GTX 1070 Ti wurde noch ein Zwischenschritt gemacht, aber letztendlich bedeuten die aktuelle Entwicklung bei NVIDIA, dass über gut 24 Monate eine einzige Architektur in verschiedenen Ausbaustufen den Spielern angeboten wurde. Hinichtlich der Skalierung von Low-End bis High-End kann NVIDIA mit der Pascal-Architektur sicherlich mehr als zufrieden sein. Der ein oder andere Käufer ist inzwischen aber gelangweilt und wartet auf den nächsten großen Schritt.

Die Volta-Architektur wurde im Frühjahr auf der GPU Technology Conference vorgestellt. Mit den Tesla V100 werden schon die ersten Super- und Forschungscomputer mit den entsprechenden GPUs bestückt. Aufgrund der enormen größe der GPU, der damit einhergehenden Komplexität sowie der Tatsache, dass sich in Form von FP64-Einheiten und Tensor Cores zahlreiche Schaltkreise in der GPU befinden, von denen der Spieler nicht profitieren wird, war eigentlich klar, dass eine solche GPU auf einer GeForce-Grafikkarte keinerlei Platz haben wird. Hinzu kommt der teure HBM2, der hinsichtlich von Ausbeute und Taktung nach weiter hinter den ursprünglichen Plänen hinterherhinkt.

Auf der GTC 2017 sprach NVIDIA aber auch von Verbesserungen innerhalb der Shadereinheiten, sodass alleine daraus schon eine gewisse Mehrleistung zu erwarten ist. Hinzu kommt, dass die GV100-GPU 5.120 Shadereinheiten anzubieten hat, was gut 43 % mehr sind als auf der GP102-GPU der GeForce GTX 1080 Ti. Der HBM2 mit einer Speicherbandbreite von rund 653 GB/s sollte der höheren Roh-Rechenleistung ebenfalls nicht im Wege stehen.

Dies alles sind Gründe, warum wir die NVIDIA Titan V hinsichtlich der Gaming-Leistung genauer untersuchen wollen. Es dürfte auch Grund genug sein, denn auch wenn die Karte 3.100 Euro kostet, gibt sie einen Ausblick auf das, was uns 2018 erwarten könnte. Bereits in den Gerüchten behandelt wird der Name der nächsten GPU-Architektur von NVIDIA, die auf den Namen Ampere hören soll. Sie soll dann wieder auf GeForce-Karten ausgerichtet sein. Hinter Ampere muss sich aber nicht zwangsläufig eine völlige Neuentwicklung verbergen. Denkbare wäre eine Volta-Architektur ohne die compute-spezifischen Komponenten und mit einem GDDR5X- oder GDDR6-Speicherinterface. Insofern kann eine Titan V schon heute das Fenster in die Zukunft sein.

Die technischen Daten der NVIDIA Titan V in der Übersicht
Modell: NVIDIA Titan V
Straßenpreis: 3.100 Euro
Webseite: www.nvidia.de
Technische Daten
GPU: GV100
Fertigung: 12 nm
Transistoren: 21,1 Milliarden
GPU-Takt (Basis): 1.200 MHz
GPU-Takt (Boost): 1.455 MHz

Speichertakt:

850 MHz
Speichertyp: HBM2
Speichergröße: 12 GB
Speicherinterface: 3.072 Bit
Bandbreite: 652,8 GB/s
DirectX-Version: 12
Shadereinheiten: 5.120
Textureinheiten: 320
ROPs: 96
Typische Boardpower: 250 W
SLI/CrossFire -

Ähnlich wie viele Vorgänger-Architekturen und auch Pascal setzt sich Volta, bzw. die GV100-GPU aus Graphics Processing Clusters (GPCs), Texture Processing Clusters (TPCs), Streaming Multiprocessors (SMs) und einem Speicher-Controller zusammen. Der Vollausbau der GV100-GPU besteht aus sechs GPCs, 84 Volta SMs, 42 TPCs (jeder mit jeweils zwei SMs) und acht 512-Bit-Speicher-Controllern (4.096 Bit ingesamt). Jeder SM hat 64 FP32 Cores, 64 INT32 Cores, 32 FP64 Cores und acht der neuen Tensor Cores. Hinzu kommen noch vier Textur-Einheiten pro SM.

Den Vollausbau verwendet NVIDIA derzeit aber nocht nicht – weder auf der Tesla V100, noch bei der Titan V. Hier kommen 80 SMs zum Einsatz, sodass wir insgesamt 5.120 Shadereinheiten haben. Hinzu kommen 2.560 FP64-Einheiten, die Shadereinheiten beschreiben zugleich auch die FP32-Einheiten. Für Deep-Learning-Anwendungen interessant sind die 640 Tensor Cores, die INT8-Berechnungen durchführen können. Matrix-Multiplikationen (BLAS GEMM) sind der wichtigste Bestandteil für das Training von Deep-Learning-Netzwerken und hier kommen die Tensor Cores in Spiel. Die Tensor Cores haben innerhalb des SMs ihre eigenen Datenpfade und können per Clock Gating auch komplett abgeschaltet werden, wenn sie nicht benötigt werden. Jeder Tensor Core bietet ein Matrix-Array aus 4 x 4 x 4 Matrizen, welches in einer D = A x B + C Operation durchlaufen wird. Die Eingangs-Matrizen A und B sind dabei FP16-Einheiten, die Akkumulation kann eine FP16 oder FP32-Einheit sein. Jeder Tensor Core führt 64 Floating Point FMA Mixed-Precision-Operationen pro Takt aus – jeweils eine Multiplikation und eine Akkumulation. Die acht Tensor Cores pro SM kommen damit auf 1.024 Floating-Point-Operationen pro Takt.

Jeder HBM2-Speicherstack wird über zwei Speichercontroller angebunden. Insgesamt bietet die GV100-GPU acht dieser Controller mit jeweils 512 Bit. Bei der Titan V sind allerdings nur sechs Controller aktiv, sodass wir hier ein 3.072 Bit breites Speicherinterface haben. Dieses bindet 12 GB HBM2 mit einem Takt von 850 MHz an, sodass wir auf eine Speicherbandbreite von 652,8 GB/s kommen. NVIDIA verwendet nur drei der vier verfügbaren HBM2-Speicherstacks. Unklar ist, ob einer der Stacks damit komplett defekt ist, oder NVIDIA auch zwei Speicherstacks mit jeweils der halben Speicherkapazität und Bandbreite ansprechen kann. An jeden Speicher-Controller angekoppelt sind 768 KB L2-Cache und jeder HBM2-DRAM-Stack wird von zwei Speicher-Controllern angesteuert. In dieser Ausbaustufe bietet die GV100-GPU insgesamt 6.144 KB L2-Cache.

NVIDIA hat am Aufbau des Streaming Multiprozessors einige Änderungen vorgenommen, sodass diese nicht mehr viel mit der Maxwell- und Pascal-Generation gemein haben. Grundsätzlich zeigen diese Änderungen in eine Richtung: Die Compute-Leistung sollte erhöht werden. Während die SMs in der GP100-GPU (Pascal) in zwei Processing Blocks mit jeweils 32 FP32 Cores, 16 FP64 Cores, einem Instruction Buffer, einem Warp Scheduler, zwei Dispatch Units und einem 128 KB großen Register File ausgestattet sind, hat sich der Aufbau in der Volta-Architektur etwas geändert. Der SM in der GV100-GPU ist ist in vier Processing Blocks aufgeteilt. Diese wiederum bestehen aus 16 FP32 Cores, 8 FP64 Cores, 16 INT32 Cores, zwei neuen Mixed-Precision Tensor Cores, einem neuen L0 Instruction Cache, einem Warp Scheduler, einer Dispatch Unit und einem 64 KB großen Register File. Anders als in der Pascal-Architektur, die keine gleichzeitige Ausführung von FP32- und INT32-Instruktionen ermöglichte, kann dies durch die separaten Einheiten im SM der Volta-Architektur ausgeführt werden und erhöht natürlich die Rechenleistung.

Da sich NVIDIA bisher ausschließlich auf das GPU-Computing konzentriert hat, sind die Auswirkungen der Änderungen im Aufbau der Architektur nur schwer abzuschätzen. Der aktuelle GeForce-Treiber unterstützt die Titan V mit Volta-Architektur, allerdings dürften sich die Optimierungen in dieser Hinsicht in Grenzen halten. Wir sind also gespannt welches Leistungsplus über die Anzahl der Shader hinaus noch erreicht werden kann.

Der GPU-Screenshots bestätigt die technischen Daten der NVIDIA Titan V noch einmal. Da diese Angaben aber ohne Praxisbezug keinerlei Relevanz haben, schauen wir uns zunächst einmal an, welche Taktraten die GPU unter Last erreicht.

Gegenüberstellung von Temperatur und Takt
Spiel Temperatur Takt
The Witcher 3: Wild Hunt 84 °C 1.719 MHz
Rise of the Tomb Raider

84 °C

1.706 MHz
Hitman 84 °C 1.706 MHz
Far Cry Primal 84 °C 1.719 MHz
DiRT Rallye 84 °C 1.740 MHz
Anno 2205 84 °C 1.719 MHz
The Division 84 °C 1.740 MHz
Fallout 4 84 °C 1.719 MHz
DOOM 84 °C 1.740 MHz

Aufgrund der von NVIDIA bekannten Kühlung war klar, dass eine Titan V immer am Temperaturlimit arbeiten wird. Dies erging schon der GeForce GTX 1080 Ti so und auch eine Titan Xp kann ihr Leistungspotenzial nicht vollständig ausschöpfen. Dabei ist es noch nicht einmal so, als würde die Lüftersteuerung nicht versuchen die Temperatur zu senken. Unter Volllast dreht der Lüfter mit 2.375 Umdrehungen pro Minute. Der von NVIDIA erwähnte Boost-Takt von 1.455 MHz wird mit 1.706 bis 1.740 MHz aber deutlich übertroffen.