Seite 2: Threadripper-Architektur

Wir kennen die Ryzen-Prozessoren und auch zu den Servermodellen Epyc haben wir bereits ausführliche Berichte veröffentlicht. Wer noch einmal tiefer in die Zen-Architektur eintauchen möchte, dem empfehlen wir einen Blick in unseren Launch-Artikel zum Ryzen 7 1800X, in dem wir ausführlicher auf die Neuerungen eingegangen sind. Nun aber wollen wir uns den Aufbau eines Ryzen Threadripper einmal etwas genauer anschauen.

Zunächst einmal überführt AMD einen Großteil der von Ryzen bekannten Funktionen und Verbesserungen der Zen-Architektur auf Ryzen Threadripper. So weit ist dies allerdings noch keine Überraschung. Einige Änderungen gibt es allerdings im Detail und dies betrifft unter anderem die Extended Frequency Range, also die nochmalige automatische Übertaktung des Prozessors, wenn eine ausreichende Kühlung gewährleistet werden kann. Anstatt für nur zwei Kerne, kann XFR bei Ryzen Threadripper auf vier Kernen angewendet werden.

Doch kommen wir nun zu den ersten echten Unterschieden. AMD verwendet die besten 5 % der Fertigung der Dies für Ryzen Threadripper. Zunächst einmal konnte davon ausgegangen werden, dass AMD hier einfach Epyc-Prozessoren als Threadripper-Modelle verkauft. Dies ist aber aufgrund der nicht aktiven Dies, die als Spacer verwendet werden, schon einmal nicht mehr so einfach möglich. Auch die verwendeten Zeppelin-Dies sind aber nicht identisch und entstammen einem anderen Stepping.

So basieren die Epyc-Prozessoren auf dem neueren B2-Stepping, während die Ryzen-Threadripper-Prozessoren dem B1-Stepping entstammen. Dies geht aus einigen der CPU-Support-Listen hervor, die von den Mainboard-Herstellern veröffentlicht wurden.

Bei neueren Steppings handelt es sich um im Detail verbesserte Versionen der gleichen Architektur und des gleichen Prozessor-Typs. Ein neues Stepping kann Fehler beseitigen und höhere Taktraten möglich machen. Welche Änderungen es vom B1- zum B2-Stepping bei AMD gegeben hat, ist unklar. Alle Ryzen-Prozessoren basieren auf dem B1-Stepping, so auch die Threadripper-Modelle.

Kommunikation untereinander ist alles

Natürlich verwendet AMD für die Kommunikation zwischen den CCX-Clustern, einzelnen Dies und mit der Außenwelt in Form der DDR-Speichercontroller wieder den Infinity Fabric. Dieser Infinity Fabric wird mit der gleichen Geschwindigkeit betrieben wie der Arbeitsspeicher. Setzt man also schnelleren Arbeitsspeicher ein, beschleunigt dies auch den Interconnect.

Durch den höheren Speichertakt kann AMD die Bandbreite eines Infinity-Fabric-Links von 42,6 GB/s auf 51,1 GB/s beschleunigen. Zwischen den zwei Dies wird demzufolge über zwei Links eine Bandbreite von 102,22 GB/s erreicht. 22 GB/s sollen es zwischen zwei CCX-Clustern sein. Entscheidend ist dabei auch der Energieaufwand, der pro Bit notwendig ist, Daten darüber auszutauschen. AMD gibt ab, dass dieser Wert bei 2 pJ pro Bit, oder 0,6672 W pro Link, 0,336W pro Zeppelin-Chip pro Link liegt. Insgesamt verbraucht der Interconnect zwischen den Dies demnach schon etwas mehr als 4 W.

Neben der Bandbreite und der Energie, die aufgewendet werden muss, spielt aber vor allen die Latenz eine wichtige Rolle. Innerhalb eines CPU Complexes beträgt die Latenz 26 ns. Sollen Daten zwischen Kernen in einem CPU Complex ausgetauscht werden, beträgt die Latenz hier 42 ns. Zwischen zwei CPU Complexen beträgt die Latenz 142 ns.

Wichtig werden diese Latenzen, wenn es um die Anbindung des Arbeitsspeichers geht. Werden Daten in Die A verarbeitet, muss dazu aber auf den am Die B angebundenen Arbeitsspeicher zugegriffen werden, zieht dies natürlich höhere Latenzen nach sich, als wenn Die A direkt auf Daten zugreifen kann, die im eigenen angebundenen Speicher liegen. Laut AMD hat der direkt angebundene Speicher eine Latenz von 78 ns, während der weiter entfernt angebundene Speicher auf 133 ns kommt.

NUMA vs. UMA

In diesem Zusammenhang kommen dann auch die Begriffe NUMA und UMA ins Spiel. Der Non-Uniform Memory Access (NUMA) beschreibt eine Speicherarchitektur, bei der jeder Prozessor einen eigenen, lokalen Speicher hat, aber anderen Prozessoren über einen gemeinsamen Adressraum direkten Zugriff darauf gewährt. Uniform Memory Access (UMA) wiederum beschreibt eine Speicherarchitektur, bei der nur ein Speicher vorhanden ist, auf den von allen Prozessoren aus einheitlich zugegriffen werden kann.

Beide Systematiken haben ihre Vor- und Nachteile. Niedrigere Latenzen oder eine höhere Bandbreite sind die beiden Werte, nach denen abgewogen werden muss. AMD liefert auch gleich die ersten eigenen Werte für das Lesen, Schreiben oder Kopieren von Daten. Eigene Tests werden zeigen müssen, welche Anwendungen von NUMA oder UMA profitieren. Wie die Prozessoren arbeiten, kann man im BIOS verändern.

"Nothing is going dark"

Alle Ryzen-Threadripper-Prozessoren verfügen über 64 PCI-Express-Lane, ein Quad-Channel-Speicherinterface und auch ansonsten über die identische I/O-Ausstattung. Der Ausruf "nothing is going dark"spielt daher für den Aufbau eines Ryzen-Threadripper-Prozessors immer wieder eine wichtige Rolle, denn egal um welche Zeppelin-Die, CCX-Konfigration und damit Modellvariante es sich handelt – die I/O-Austattung bleibt identisch und das weil es keine Teildeaktivierungen in diesem Bereich gibt. Wir erinnern uns an Skylake-X: Hier deaktiviert Intel einige PCIe-Lanes bei den kleineren Modellen, was nicht nur zu Problemen bei der Anbindung von Grafikkarten führen kann, sondern zudem auch noch zu wilden deaktivierten Mainboard-Funktionen.

Die Vielzahl an PCI-Express-Lanes birgt einige Vorteile gegenüber der Konkurrenz aus dem Hause Intel. So lassen sich mehr x16-Steckplätze für Grafikkarten oder GPU-Beschleuniger implementieren oder aber es können eine Vielzahl an schnellen M.2-Steckplätzen angeboten werden. Auf den meisten X399-Boards wird man somit vier GPU-Slots sehen - und auch mehrere M.2-NVME-Anschlüsse und reichhaltige Onboard-Komponenten.

Game Mode vs Creator Mode

Die schiere Anzahl an Kernen und Threads wirk sich aber nicht immer positiv aus. So gibt es einige wenige Spiele, die ab einer Anzahl von zehn Kernen nicht mehr starten bzw. direkt nach dem Start wieder abstützen. Um diese Probleme zu umgeben führt AMD zudem zwei Modi ein. Im Game Mode ist die Anzahl der Kerne auf die Hälfte der zur Verfügung stehenden Kerne beschränkt. Beim Ryzen Threadripper 1950X sind dies acht, beim Ryzen Threadripper 1920X dementsprechend sechs. Damit sollte es aufgrund der Anzahl der Kerne nicht mehr zu Problemen kommen.

Wer die volle Anzahl an Kernen nutzen möchte, belässt es beim Creator Mode und bekommt die volle Anzahl an Kernen und Threads geboten. Zwischen dem Game und Creator Mode kann im Ryzen Master gewechselt werden. Wie auch beim Wechsel zwischen UMA und NUMA ist ein Neustart notwendig. Laut AMD laufen im Game Mode über 100 Spiele im Schnitt vier Prozent schneller. Es gibt aber Spiele, die um bis zu 12 % profitieren – allerdings auch solche die langsamer laufen. Hier gilt es den richtigen Weg für die verwendeten Spiele zu finden und eigene Erfahrungen zu sammeln.