Seite 1: Die Turing-Architektur mit RTX, Ray Tracing und den neuen Shader-Funktionen

turing-gpuHeute ist nun endlich soweit - könnte man denken. Mit dem heutigen Tag fällt das NDA zur GeForce-RTX-20-Serie - leider aber noch nicht vollständig. Stattdessen dürfen wir uns der Turing-Architektur und allen Neuheiten rund um die verbesserten Shader, dem Ray Tracing und den RTX-Funktionen insgesamt genauer widmen. Bis es Benchmarks zur GeForce RTX 2080 und GeForce RTX 2080 Ti zu sehen gibt, wird es noch ein paar Tage dauern. Am Mittwoch dürfen wir dann über die Leistung der GeForce RTX 2080 und GeForce RTX 2080 Ti berichten.

Für NVIDIA ist die Veröffentlichung der Turing-Architektur der nächste große Schritt in der Evolution der Grafikkarten und ähnlich hoch anzusiedeln wie die Entwicklung der ersten Shadereinheiten. Mit der bereits erfolgten Veröffentlichung der technischen Daten zu den ersten drei Karten (GeForce RTX 2080 Ti, GeForce RTX 2080 und GeForce RTX 2070), der Demonstration erster RTX-Umsetzungen und vor allem der Nennung der Preise, entbrannte allerdings eine Diskussion über Kosten und Nutzen der Technik zum jetzigen Zeitpunkt.

NVIDIA richtet seine Hardware mit der Turing-Architektur neu aus. Das Henne-Ei-Problem soll durch das Hardware-Angebot gelöst werden – unterstützt durch ein Engagement in Zusammenarbeit mit den größten Spieleentwicklern. NVIDIAs CEO und Gründer machte in den vergangenen Wochen bei zahlreichen Gelegenheiten eines klar: Ray Tracing ist einer der wichtigsten Entwicklungsschritte der vergangenen Jahre. Der Heilige Gral der Grafiktechnik soll die Beleuchtung von Objekten auf ein neues Level heben. Beim Ray Tracing geht es darum, das Verhalten von so vielen Lichtstrahlen wie möglich zu simulieren. Reflexionen, Streuung, Schatten, Absorption und (halb)transparente Materialien sind nur einige wenige Begriffe, welche die Mechaniken beschreiben, die durch Ray Tracing nachgebildet werden.

Wie ein Ray Tracing funktioniert, schauen wir uns gleich genauer an. Zunächst einmal werfen wir einen Blick zurück, denn neu ist weder das Ray Tracing als solches, noch die Technik zur Berechnung dazu. Es gab sogar bereits dedizierte Ray-Tracing-Beschleunigerkarten, wie die R2500 und R2100 von Imagination Technologies aus dem Jahre 2016. Das Unternehmen entwickelt mit seinen PowerVR-Architekturen noch immer solche Konzepte, allerdings für andere Anwendungsbereiche.

Doch man kann noch viel weiter zurückgehen, denn bereits 1980 konnte ein Ray Tracing auf einer gerenderten Szene angewendet werden. Damals benötigte man allerdings mehr als eine Stunde für ein Bild aus 512 x 512 Pixel auf einem VAX 11/780 Computer. Auch mit Hardware aus dem Jahre 2018 ist ein Ray Tracing in Echtzeit nicht möglich. Hier stehen das universelle Design und die Funktionsweise einer klassischen Render-Pipeline im Wege. Mehrere PFLOPS wären heutzutage notwendig, um ein Ray Tracing auf eine komplette Szene anzuwenden. Es würde noch etwa zehn Jahre dauern, um beim aktuellen Entwicklungstempo auf diese Rechenleistung zu kommen.

Daher führt NVIDIA mit der Turing-Architektur eine hardwarebeschleunigte Berechnung von Ray Tracing ein und teilt die Ressourcen einer GPU in mehrere Segmente. Die Kombination aus einer neuen Core-Architektur (den Turing-SMs), den bereits bekannten Tensor Cores, den neuen RT Cores und neuen Shading-Technologien führen zu einem Hybrid-Rendering. Es gibt also weiterhin das klassische Rasterization für das Rendering in altbekannter Form, aber auch unterstützende Techniken die das Ray Tracing als Hilfsmittel für die Berechnung von Beleuchtung, Verschattung, Spiegelungen und Reflexionen jeglicher Art hernehmen.

Die neue Hardware

Kommen wir nun aber zur Hardware in Form der GeForce RTX 2080 und GeForce RTX 2080 Ti. Auf die GeForce RTX 2070 werden wir dann etwas genauer eingehen, wenn diese auch offiziell starten wird. Zum jetzigen Zeitpunkt konzentrieren wir uns auf die beiden erstgenannten Modelle.

Die GeForce RTX 2080 Ti bietet 4.352 Shadereinheiten, die GeForce RTX 2080 und GeForce RTX 2070 kommen mit 2.944, bzw. 2.302 auf entsprechend weniger. Aufgrund der Angaben der Tensor Cores sowie der RT Cores für den Vollausbau der TU102-GPU können wir nun aber dazu, die Werte zu den Modellen der GeForce RTX 2080 Ti, GeForce RTX 2080 und GeForce RTX 2070 ausrechnen – bisher machte NVIDIA noch keine offiziellen Angaben zur Anzahl der Tensor und RT Cores.

Aufgrund der Angaben zur Anzahl der Shadereinheiten wissen wir, dass ein Shader-Cluster aus dem Mehrfachen von 32, 64 oder gar 128 Shadereinheiten bestehen kann. Ein SM-Cluster (Streaming Multiprozessor) der Pascal-Architektur besteht aus 128 Shadereinheiten, für die Volta-Architektur änderte NVIDIA den Aufbau auf 64 Shadereinheiten pro SM-Cluster. Da die Turing-Architektur sicher eher an der Volta- als an der Pascal-Architektur orientieren wird, gehen wir von 64 Shadereinheiten pro SM-Cluster für Turing aus. Dies passt dann auch zur Anzahl der Tensor Cores pro SM. In der Volta-Architektur sind acht Tensor Cores pro SM-Cluster vorhanden – bei Turing ist dies offenbar ebenfalls der Fall.

Die technischen Daten der GeForce RTX 2080 Ti, RTX 2080 und RTX 2070 in der Übersicht
Modell GeForce RTX 2080 Ti GeForce RTX 2080 GeForce RTX 2070
Preis 1.259 Euro 849 Euro 639 Euro
Technische Daten
Architektur Turing Turing Turing
GPU TU102 TU104 TU106
Fertigung TSMC 12 nm TSMC 12 nm TSMC 12 nm
Transistoren 18,6 Milliarden 13,6 Milliarden 10,8 Milliarden
Diegröße 754 mm² 545 mm² 445 mm²
Shadereinheiten 4.352 2.944 2.304
Tensor Cores 544 368 288
RT Cores 68 46 36
Textureinheiten 272 184 144
Geometrieeinheiten 34 23 18
ROPs 88 64 64
GPU-Takt (Basis) 1.350 MHz 1.515 MHz 1.410 MHz
GPU-Takt (Boost) 1.635 MHz 1.800 MHz 1.710 MHz
RTX-OPS 78 TRTX-OPS 60 TRTX-OPS 45 TRTX-OPS
Gigarays/s 10 GRays/s 8 GRays/s 6 GRays/s

Speichertakt

1.750 MHz 1.750 MHz 1.750 MHz
Speichertyp GDDR6 GDDR6 GDDR6
Speichergröße 11 GB 8 GB 8 GB
Speicherinterface 352 Bit 256 Bit 256 Bit
Bandbreite 616 GB/s 448 GB/s 448 GB/s
TDP 260 W 225 W 185 W
Versorgung  2x 8-Pin 1x 8-Pin + 1x 6-Pin 1x 8-Pin
SLI/NVLink 2x NVLink 1x NVLink -

Kommen wir nun zur letzten großen Unbekannten im Aufbau der Turing-Architektur – den RT Cores. Aus 72 RT Cores bei 4.608 Shadereinheiten ergeben sich jeweils ein RT Core pro SM-Cluster (4.608 Shadereinheiten / 64 = 72 SM-Cluster = 72 RT Cores). Noch einmal auf die Tensor Cores bezogen errechnen sich daraus 72 SM-Cluster x 8 Tensor Cores = 576 Tensor Cores für den Vollausbau.

Weiterhin kennen wir nun die Anzahl der Textureinheiten pro SM-Cluster – derer vier wie bei der Volta-Architektur. Für das Speicherinterface ist die Rechnung analog zur Pascal-Architektur: Das Speicherinterface in 32-Bit-Blöcke aufgeteilt. Von den 384 Bit des Vollausbaus der TU102-GPU deaktiviert NVIDIA einen dieser Blöcke und kommt auf 352 Bit der GeForce RTX 2080 Ti. Jeder dieser 32-Bit-Blöcke ist auch für die Anbindung eines Speicherchips verantwortlich. 352 Bit / 32 Bit ergibt die 11 Kanäle für die 11 GDDR6-Speicherchips. Für die GeForce RTX 2080 und GeForce RTX 2070 ergeben sich analog dazu die 256 Bit / 32 Bit in 8 Kanälen für die 8 GDDR6-Speicherchips. Pro 32-Bit-Block das Speicherinterfaces sind acht ROPs verbaut.