Turing ohne RTX

Die GeForce GTX 1660 Ti im Test - Turing-Architektur ohne RT und Tensor Kerne

Von Andreas Schilling
Freitag, 22.02.2019 um 15:00 Uhr

Seite 2: Turing-Architektur ohne RT und Tensor Kerne

205

Wie alle GeForce-RTX-Grafikkarten basiert auch die GeForce GTX 1660 Ti auf der Turing-Architektur von NVIDIA. Der Chip kommt auf 6,6 Milliarden Transistoren und eine Fläche von 284 mm². Damit ist er gut 42 % größer als der GP106 (4,4 Milliarden Transistoren und 200 mm²) der GeForce GTX 1060 und auch deutlich komplexer. Entsprechend zu erwarten, dass eine GeForce GTX 1660 Ti schneller sein wird als eine GeForce GTX 1060, selbst eine GeForce GTX 1070 soll in Reichweite rücken. Wo genau sie landen wird, schauen wir uns dann in den Benchmarks an.

Nun wollen wir uns aber die Details der Turing-Architektur anschauen und welche Änderungen NVIDIA im Vergleich zur Vorgänger-Generation vorgenommen hat.

Bei der Turing-Architektur handelt es sich um die 12. Generation der GPU-Architekturen von NVIDIA. Der Turing Streaming Multiprocessor (SM) ist eine kleine Weiterentwicklung der Volta-Architektur, besitzt im Vergleich zu Pascal aber weitreichende Änderungen.

Neu ist ein gleichzeitiger Pfad für Fließkomma- (FP) und Integer-Berechnungen (INT) in der Rechenpipeline. Eine gleichzeitige Berechnung von Fließkomma- und Integer-Datensätzen war bisher in keiner der vorherigen GPU-Architekturen von NVIDIA möglich. NVIDIA hat sich die Ausführung dieser Berechnungen in der Rendering-Pipeline anhand dutzender Spiele angeschaut und konnte dabei feststellen, dass pro 100 FP-Berechnungen etwa ein Drittel an INT-Berechnungen anfallen. Dies entspricht einem Mittelwert, der allerdings auch von 20 % bis 50 % schwanken kann. Ist es nicht möglich FP- und INT-Berechnungen gleichzeitig auszuführen, gibt es hier gewisse Abhängigkeiten, die zu Verzögerungen in der Rendering-Pipeline führen können.

Aus diesem Grund führt NVIDIA mit der Turing-Architektur die gleichzeitige Ausführung von FP- und INT-Berechnungen ein. Der Turing SM besitzt 64 FP32-Einheiten und 64 INT32-Einheiten – nicht ganz entsprechend dem typischen Verhältnis von Anforderungen in der Rendering-Pipeline.

Ebenfalls einige Änderungen gibt es in der Cache-Hierarchie und diese beginnen damit, dass NVIDIA mit der Turing-Architektur die Anzahl der Load/Store-Units erhöht. In der Volta-Architektur sieht NVIDIA pro Volta SM 32 Load/Store-Units vor. Auch die Pascal-Architektur besitzt 32 Load/Store-Units pro SM. Jeder Streaming-Multiprozessor der Turing-Architektur verfügt nun über 64 Load/Store-Units, die für 16 Threads pro Takt die Quell- und Ziel-Adressierung im Speicher und Cache berechnen. Allerdings teilt NVIDIA den L1-Cache und Shared Memory neu auf.

Der L2-Cache wurde bereits mit der Volta-Architektur auf 6 MB vergrößert und findet sich in dieser Form auch in der Turing-Architektur wieder. Änderungen gibt es auch beim L1-Cache – teilweise kennen wir diese ebenfalls bereits von der Volta-Architektur. Handelte es sich bei der Pascal-Architektur noch um einen getrennten L1- und Shared-Cache, legt NVIDIA diese nun zusammen. Dies ist auch schon bei der Volta-Architektur der Fall. L1-Cache und der dazugehörige Shared Memory sind bei Volta 128 KB groß. Die Größe des Shared Memory konnte auf bis zu 96 KB frei konfiguriert werden. Für die Turing-Architektur scheint NVIDIA die Größe wieder etwas zu reduzieren und kommt auf gemeinsame 96 KB, legt diese aber konfigurierbar als 64 KB (L1-Cache) + 32 KB (Shared Memory) oder 32 KB (L1-Cache) + 64 KB (Shared Memory) an. Der L1-Cache ist insgesamt 1.536 KB groß. Gleiches gilt für den gesamtem L2-Cache, der ebenfalls 1.536 kB groß ist.

Durch die geänderten Berechnungen in den FP32- und INT32-Einheiten sowie den Änderungen in der Cache-Hierarchie sieht NVIDIA eine Beschleunigung der Instruktionen pro Takt um den Faktor x1,5. Ganz so wird man das im Vergleich in der Praxis aber nur in den wenigsten Fällen nachstellen können.

Die Steigerung in der Effizienz der Architektur schlägt sich bei einer identischen Auslegung in der Thermal Design Power natürlich auch in einer gesteigerten Energieeffizienz nieder.

NVIDIA liefert auch gleich eigene Benchmarks und natürlich wird kaum ein Besitzer einer GeForce GTX 1060 über einen Wechsel zur GeForce GTX 1660 Ti nachdenken, denn oftmals wird nur alle 3-4 Jahre eine Neuanschaffung gemacht. Daher gibt NVIDIA auch einen Ausblick auf das Leistungsplus, wenn eine GeForce GTX 960 als Vergleichsbasis herangezogen wird. Aber die einzelnen Werte wollen wir nicht kommentieren und verweisen stattdessen auf unsere eigenen Benchmarks.

Seite 1: Turing ohne RTX: Die GeForce GTX 1660 Ti im Test Seite 3: ASUS ROG Strix GeForce GTX 1660 Ti OC - Impressionen Teil 1

Quellen und weitere Links