> > > > Turing-Architektur: Größere Kacheln im TBR durch mehr Cache

Turing-Architektur: Größere Kacheln im TBR durch mehr Cache

Veröffentlicht am: von

turing-gpuDie Turing-Architektur beherrscht mehr als die Hardwarebeschleunigung durch RT und Tensor Cores. Auch wenn der Fokus auf den neuen Funktionen wie den RTX-Effekten und dem Deep Learning Super Sampling liegt, so bieten die Turing-Shader auch noch dedizierte INT32-Recheneinheiten, eine größere und effizientere Cache-Hierarchie und optimierte Shading-Prozesse wie das Variable Rate Shading (VRS), welches in erster Umsetzung als NVIDIA Adaptive Shading (NAS) implementiert wird.

Den wohl größten Effizienzsprung machte NVIDIA durch Änderungen in der Art und Weise, wie der Rasterizer der Maxwell- und Pascal-Architektur im Vergleich zur Fermi- oder Kepler-Architektur arbeitet. Seit der ersten Maxwell Generation wendet NVIDIA das sogenannte Tile Based Rendering bzw. eine Tile Based Rasterization an. Dies setzte sich mit Pascal und Volta fort. Mit der Turing-Architektur scheint NVIDIA ebenfalls einige Verbesserungen vorgenommen zu haben, die sich durch die größeren Caches (L1 und L2) und verringerten Latenzen ergeben.

Größe der Caches in NVIDIAs GPU-Architekturen
L2-Cache
GF100 (Fermi)768 kB
GK107 (Kepler) 256 kB
GK104 (Kepler) 512 kB
GM107 (Maxwell) 2.080 kB
GM204 (Maxwell)2.048 kB
GM200 (Maxwell) 3.072 kB
GP104 (Pascal) 2.048 kB
GP102 (Pascal) 3.072 kB
GP100 (Pascal) 4.096 kB
GV100 (Volta) 6.144 kB
TU102 (Turing) 6.144 kB
TU106 (Turing) 4.096 kB
TU116 (Turing) 1.536 kB

Das Tile Based Rendering ist keine neue Erfindung und wird auch nicht nur von NVIDIA angewendet. Imagination Technology oder ARM wenden das Tile Based Rendering bei den PowerVR- und Mali-Designs schon seit geraumer Zeit an. Das Gegenkonzept zu Tile Based Rendering ist das Immediate Mode Rendering, wie es bei AMD verwendet wird. Dabei wird der Rasterization-Prozess über den kompletten Frame angewendet, während beim Tile Based Rendering der Frame in viele kleine Tiles, also rechteckige Blöcke aufgeteilt wird.

Grundsätzlich gilt: In je mehr Kacheln (Tiles) der Frame aufgeteilt werden kann, desto effizienter kann der Rasterizer diesen abarbeiten. Viele Tiles bedeutet aber auch, dass in den Caches und Registers viele kleine Abfragen stattfinden. Der Verwaltungsaufwand der Parallelisierung wird also größer. Zu groß dürften die Kacheln jedoch nicht werden, damit die in einer Kacheln befindlichen Daten, noch in den Caches verbleiben können. Der Rasterizer bestimmt in Abhängigkeit der vorhandenen Komplexität, wie groß und damit wie viele Kacheln angewendet werden, um den Frame abzutasten.

Wie sich die Größe des L2-Caches im Verlaufe der verschiedenen Generationen und Ausbaustufen der Chips verändert hat, zeigt obige Tabelle ganz gut. Waren 768 kB beim großen GF100 auf Basis der Fermi-Architektur damals schon groß bemessen, sind wir über 3.072 kB beim großen GM200 der zweiten Maxwell-Generation nun bei 6.144 kB für die großen Ausbaustufen von Volta und Turing gelandet. Eine TU102-GPU bietet also gegenüber einer GP102-GPU einen doppelt so großen L2-Cache. Die Kacheln des TBR scheinen um den Faktor zwei bis vier größer zu sein. Der doppelt so große Cache spielt also nur teilweise eine Rolle bei der Größenzuteilung des Rasterizers. Die geringeren Latenzen des Caches spielen ebenfalls eine Rolle.

Inwieweit der nur 1.536 kB große L2-Cache der TU116-GPU auf der GeForce GTX 1660 Ti hierbei eine Rolle spielt, können wir derzeit nicht abschätzen. Im Vergleich zur TU106-GPU mit 4.096 kB hat NVIDIA diesen mit den besagten 1.536 kB in der TU116-GPU deutlich reduziert. Warum die TU116-GPU über einen im Verhältnis derart geringen L2-Cache verfügt, ist nicht bekannt.

Seit der Einführung des Tile Based Rasterization mit der Maxwell-Architektur im Februar 2014 hat sich viel getan. Für die Maxwell- und Pascal-Architektur musste sich NVIDIA einige Tricks einfallen lassen, damit das Tile Based Rendering seine Effektivität ausspielen kann. Dazu gehört ein spezieller DirectX-Code, der sich spezifisch an die Triangle-Rasterization richtet. Inzwischen ist dies anders und TBR hat sich als Methode für das Rasterization durchgesetzt.

Für den Spieler spielt es letztendlich keine Rolle, wie groß die Kacheln sind, wie der Rasterizer vorgeht und welche Cache-Größen dafür verantwortlich sind, dass die Tile Based Rasterization effektiver ablaufen kann. Aus technischer Sicht ist es aber durchaus interessant zu wissen, dass es auch beim TBR Änderungen gibt bzw. der Rasterizer auf die größeren Caches reagiert. Zu einem gewissen Teil ergeben sich daraus die Verbesserungen in der Rechenleistung auf die einzelnen Shader bezogen. TBR ist also nur ein Rad im Motor einer modernen GPU, ist aber ein wichtiger Bestandteil – auch mit der Turing-Architektur von NVIDIA.

Social Links

Kommentare (2)

#1
Registriert seit: 29.11.2018

Matrose
Beiträge: 2
"[...] GPU auf der GeForce GTX 1160 Ti [...]"

1660 Ti

"[...] ist aber ein wichtigster Bestandteil – auch mit der Turing-Architektur von NVIDIA."

wichtiger
#2
customavatars/avatar238501_1.gif
Registriert seit: 01.01.2016

Oberleutnant zur See
Beiträge: 1508
Also, irgendwie... kann ich den Artikel nicht so richtig einordnen für mich.

Eigentlich interessiert mich die Technik hinter Sowas ja schon, aber sagt man hier nicht einfach nur "sie haben bisserl optimiert, läuft besser jetzt!"?

Etwas schwer rauszulesen, zumindest auf die ersten zwei Versuche, weil so oft von Satz zu Satz auf einmal ganz andere Turingthemen reingenommen werden.

Liest sich ein wenig nach: "Bringen wir so viele Hashtags und Buzzwörter in Text, wie nur möglich!".
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

  • Die GeForce RTX 2080 Ti und RTX 2080 Founders Edition im Test

    Logo von IMAGES/STORIES/2017/GEFORCERTX2080

    Heute nun ist es endlich soweit und wir präsentieren die vollständigen Leistungsdaten und Messwerte zu den beiden ersten Karten der GeForce-RTX-20-Serie von NVIDIA. Nach der Vorstellung der Pascal-Architektur im Mai 2016 sind die neuen Karten für NVIDIA in vielerlei Hinsicht ein... [mehr]

  • GeForce RTX 2080 Ti von ASUS und MSI im Test

    Logo von IMAGES/STORIES/2017/ASUS-STRIX-RTX2080TI-25_EBA36C79E22348199FB2B590657E5413

    Nach den ersten drei Modellen der GeForce RTX 2080 schauen wir uns nun zwei Custom-Varianten der GeForce RTX 2080 Ti an. Diese stammen aus dem Hause ASUS und MSI, unterscheiden sich äußerlich in einigen Aspekten natürlich, sind sich auf den zweiten Blick aber ähnlicher als man denken möchte.... [mehr]

  • Kleiner Turing-Ausbau: Gigabyte GeForce RTX 2070 WindForce 8G im Test

    Logo von IMAGES/STORIES/2017/GIGABYTE-RTX2070-WINDFORCE-LOGO

    Gestern war es soweit und mit der GeForce RTX 2070 startet die vorerst "kleinste" GeForce-RTX-Karte der neuen Serie von NVIDIA. Mit der Gigabyte GeForce RTX 2070 Windforce 8G haben wir ein Partnermodell im Test, denn die Founders Edition ist bislang noch nicht verfügbar. Erwartet wird die GeForce... [mehr]

  • 7-nm-GPU und 16 GB HBM2: Die Radeon VII im Test

    Logo von IMAGES/STORIES/2017/AMD-RADEONVII

    Heute ist es endlich soweit: Es gibt in Form der Radeon VII endlich wieder eine neue Grafikkarte aus dem Hause AMD. Zwar kommt auch hier die bekannte Vega-Architektur zum Einsatz, durch die Kombination einer in 7 nm gefertigten GPU mit 16 GB an extrem schnellen HBM2, ist die Radeon VII aber... [mehr]

  • ASUS ROG Strix GeForce RTX 2070 OC im Test

    Logo von IMAGES/STORIES/2017/ASUS-ROG-RTX2070

    Nach dem ersten Einstiegsmodell können wir uns nun auch eines der schnelleren Modelle der GeForce RTX 2070 anschauen. Die ASUS ROG Strix GeForce RTX 2070 OC ist eine typische ROG-Strix-Lösung, die das Maximum aus der Hardware herausholen soll. Allerdings gönnt sich ASUS auch einen... [mehr]

  • GeForce RTX 2080 von ASUS, Gigabyte und PNY im Test

    Logo von IMAGES/STORIES/2017/ASUS-GEFORCE-RTX

    Nach dem Test der GeForce RTX 2080 in der Founders Edition, wollen wir uns nun die ersten Custom-Modelle genauer anschauen. Diese stammen von ASUS, Gigabyte sowie PNY. Zwei Modelle verwenden das Referenz-PCB von NVIDIA, eines baut aber auch schon auf einem eigenen PCB des Herstellers auf. Eine... [mehr]