Seite 2: Die zweite Ryzen-Threadripper-Generation im Detail

Wie eng AMDs Desktop-Baureihen miteinander verwandt sind, zeigt schon die Namensgebung: Ryzen für Standardnutzer, bzw. das Desktop-Segment, Ryzen Threadripper für HEDT-System (High-End Desktop). In diesem Punkt unterscheidet sich die zweite Generation nicht von der ersten. Wobei die Nähe vor einem Jahr noch leichter zu erkennen war, wie der Ryzen Threadripper 1900X zeigt, der nun nicht grundlos keinen Nachfolger erhält.

Für die zweite Generation der Ryzen-Threadripper-Prozessoren, deren Heatspreder wieder verlötet ist, nutzt AMD erneut die Architektur der Ryzen-Modelle. Damit basieren die vier neuen Chips auf der Zen+-Basis, die im 12-nm-LP-Prozess von Globalfoundries gefertigt wird. Auf die Details sind wir bereits im Test der zweiten-Ryzen-Generation eingegangen, weshalb es an dieser Stelle nur eine Zusammenfassung der wichtigsten Punkte und Änderungen gibt.

Änderungen am Cache und RAM

An erster Stelle steht - im Vergleich zur ersten Ryzen-Threadripper-Generation - neben der Verkleinerung der Fertigungsstruktur von 14 auf 12 nm die Senkung der Speicherlatenzen. Für den L1-, L2- und L3-Cache nennt AMD Verbesserungen im Bereich von etwa 8, 9 und 15 %, beim RAM immerhin noch 2 %. Vor allem beim Cache hatte AMD gegenüber Intel das Nachsehen, mit den entsprechenden Auswirkungen auf die Leistung in Cache- und Speicher-intensiven Anwendungen.

Hinzu kommt die Anhebung des unterstützten Speichertaktes von DDR4-2666 auf DDR4-2933. Allerdings gilt dabei für die zweite Ryzen-Threadripper-Generation das gleiche wie für Ryzen 2: Es kommt auf den Einzelfall an. Denn den maximalen Takt unterstützen die Prozessoren nur, wenn das Mainboard lediglich vier Speicherbänke bietet und diese auch komplett bestückt werden. Stehen hingegen acht Bänke zur Verfügung, von denen vier belegt sind, verspricht AMD nur noch DDR4-2666. Bei voller Bestückung (acht Riegel) werden nur noch DDR4-2133 (Single Rank) und DDR4-1866 (Dual-Rank) genannt.

Unterstützung von DDR4 durch die Ryzen-Threadripper-Prozessoren der 2. Generation
SpeicherkonfigurationSingle-/Dual-RankSpeichertakt
4 von 4SingleDDR4-2933
4 von 4DualDDR4-2933
4 von 8SingleDDR4-2666
4 von 8DualDDR4-2666
8 von 8SingleDDR4-2133
8 von 8DualDDR4-1866

Die Größe des L2- und L3-Caches lässt AMD hingegen unangetastet. Hier bleibt es aufgrund der Nutzung der Zen+-Architektur bei 512 KB pro Kern (L2) sowie 16 MB pro genutztem Die (L3). In Bezug auf den L3-Cache stellt der Ryzen Threadripper 2970WX eine Ausnahme dar, auf die in dessen Test, bzw. später eingegangen wird.

Im Vergleich zur ersten Generation bleibt es - wie erwähnt - bei vier Speicherkanälen, der Unterstützung von ECC-RAM (Nicht REG-ECC!) sowie insgesamt 64 PCIe-3.0-Lanes, von denen allerdings vier für die Kommunikation mit dem Chipsatz reserviert sind.

CCX und Infinity Fabric

Die im Zusammenhang mit der Zen-, bzw. Zen+-Architektur beiden wichtigsten Begriffe sind CCX und Infinity Fabric. Denn beide ermöglichen letztlich die gute Skalierbarkeit und somit die Multi-Thread-Leistung, die AMD als wichtig einstuft.

Als CCX (Compute Complex) bezeichnet das Unternehmen eine Einheit bestehend aus vier CPU-Kernen mitsamt dem jeweils eigenen L2-Cache sowie dem darauf folgenden L3-Cache. Die Kommunikation zwischen den auf einem Chip genutzten Dies erfolgt mit dem Infinity Fabric getauften Interconnect, der im Wesentlichen aus dem Control Fabric für die Steuerung der Engine Hubs (u.a. Power Management, Security, Reset & Initialization) sowie dem Data Fabric für den internen Datenaustausch besteht.

Im Falle der ersten Ryzen-Threadripper-Generation ist der Aufbau entsprechend vergleichsweise simpel. Hier sind immer zwei Dies (Die 0 und 1) aktiv, wenn auch nicht immer im vollen Umfang. Jedes Die hat direkten Zugriff auf zwei Speicherkanäle sowie 32 PCIe-3.0-Lanes. Der Infinity Fabric erlaubt das Weiterleiten von Daten an das jeweils andere Die sowie den Austausch zwischen den Dies. Für die zweite Ryzen-Threadripper-Generation gilt dieser Aufbau nur für die beiden X-Modelle 2920X und 2950X, da hier nur zwei Dies benötigt werden.

Die beiden WX-Chips 2970WX und 2990WX weichen von diesem Schema ab, zumindest in Hinblick auf die interne Kommunikation. Da letzterer Prozessor für seine 32 Kerne alle vier Dies nutzen muss, nach wie vor aber nur zwei direkt mit dem RAM sowie den PCIe-3.0-Lanes kommunizieren können, ist ein weitaus dichterer Interconnect nötig. Insgesamt gibt es sechs „Verbindungen" die es jedem Die ermöglichen, mit jedem anderen Die direkt zu kommunizieren. In diesem Zusammenhang spricht AMD von IO Dies (Die 0 und 2), die direkten Zugriff auf RAM und PCIe-3.0-Lanes haben, sowie von Compute Dies (Die 1 und 3), die ihre Daten nur über den Infinity Fabric weiterreichen können.

Die Infinity-Fabric-Bandbreite beziffert AMD auf 102,4 GB/s pro Link (bidirektional) im Falle eines Zwei-Die-Designs wie beim Ryzen Threadripper 2950X. Bei vier aktiven Dies wie beim Ryzen Threadripper 2990WX sollen es 51,2 GB/s (ebenfalls ) pro Link sein. Ausgegangen wird dabei von einem Speichertakt von 1.600 MHz, bzw. DDR4-3200. Als technisch nötig gelten etwa 22 GB/s pro Link.

NUMA und UMA, Game Mode und Creator Mode

Wer einen üblichen Desktop-Prozessor nutzt, muss nicht mit den beiden Begriffen UMA und NUMA hantieren. Der wesentliche Unterschiede betrifft die Art und Weise, wie und auf welchen Speicher ein Prozessor zugreifen kann. Im Desktop-Bereich bestehen Prozessoren in der Regel aus einem Die, das direkt an alle Speicherkanäle angebunden ist. In einem solchen Fall wird die Uniform-Memory-Access-Architektur (UMA) genutzt: Der gesamte Prozessor kann auf den gesamten Speicher zugreifen.

Besteht ein Prozessor nun aus mehreren Dies, die nicht alle direkt mit allen Speicherkanälen verbunden sind, hat UMA einen unter Umständen spürbaren Nachteil. Denn während die Speicherbandbreite aufgrund der identisch bleibenden Anzahl an Kanälen etc. die gleiche bleibt, steigt die Latenz. Schließlich werden die Wege durch den zwangsläufigen Einsatz eines Interconnects länger. Ist eine Anwendung latenzabhängig, sinkt entsprechend die Performance.

In einem solchen Fall kann NUMA (Non-Uniform Memory Access) einen Ausweg darstellen. Hier ist jedem Die ein fester Speicherbereich zugewiesen. Es sinken die durchschnittlichen Latenzen - allerdings auf Kosten der Speicherbandbreite.

Ryzen Threadripper 2950X: Vergleich zwischen UMA und NUMA
ModusLesenSchreibenKopierenLatenz
UMA86.920 MB/s87.538 MB/s80.269 MB/s95,6 ns
NUMA69.446 MB/s
86.066 MB/s
77.075 MB/s
69,8 ns

Problematisch daran ist, dass der Wechsel zwischen UMA und NUMA - AMD spricht vom Distributed Mode und Local Mode - nicht flexibel möglich ist. Stattdessen muss das Umschalten im BIOS via Ryzen Master erfolgen, sodass ein Neustart zwingend erforderlich ist. Zudem kann keine pauschale Aussage getroffen werden, welche Anwendung von welcher Architektur profitiert. Nutzern hilft nur Ausprobieren. AMD selbst sieht für den Ryzen Threadripper 2950X den Distributed Mode (UMA) als den besseren an und aktiviert diesen entsprechend als Standard ab Werk. Der Ryzen Threadripper 2990WX kann hingegen aufgrund seiner 4-Die-Aufbaus nur im NUMA-Modus betrieben werden.

UMA vs NUMA Cinebench 15 Multi-Thread

AMD Threadripper 2950X

UMA
3216 XX


3110 XX


Punkte
Mehr ist besser

UMA vs NUMA POV-ray Multi-Thread

AMD Threadripper 2950X

UMA
6444 XX


6247 XX


Punkte
Mehr ist besser

Über den Ryzen Master lassen sich aber auch weitere Einstellungen vornehmen, die aufgrund der Ryzen-Threadripper-Architektur Vorteile bringen können oder gar notwendig sind, um einen fehlerfreien Betrieb bestimmter Anwendungen überhaupt erst möglich zu machen. Den Anfang macht dabei der Legacy Compatibility Mode. Der erlaubt das Abschalten von Dies, um Probleme mit Anwendungen, die mit mehr als acht CPU-Kernen nicht umgehen können, zu beseitigen. Die Probleme können von unerwartet geringer Leistung, bis hin zu Abstürzen reichen. Laut AMD gilt das selbst für einige aktuelle Titel wie „Far Cry 5" oder „Total War: Warhammer II". Erstgenannter Action-Titel von Ubisoft verweigert auf dem Ryzen Threadripper 2990WX bei deaktiviertem Legacy Compatibility Mode, also im Betrieb mit 32 Kernen, beispielsweise den Start.

Für den Ryzen Threadripper 2950X stehen lediglich der Standardmodus sowie der Legacy Compatibility Mode zur Verfügung. In ersterem werden beide Dies sowie alle Kerne und Speicherkanäle genutzt, im anderen lediglich noch ein Die mit acht Kernen sowie zwei Speicherkanäle. Beim Ryzen Threadripper 2990WX ist eine weitere Abstufung möglich. Im ersten Schritt stehen noch zwei Dies, 16 Kerne und vier Kanäle zur Verfügung, im zweiten nur noch ein Die, acht Kerne und zwei Kanäle. Wird der Legacy Compatibility Mode aktiviert, kommt grundsätzlich die NUMA-Architektur zum Einsatz.

Legacy Compatibility Mode AMD Ryzen Threadripper
ModellStandardmodus½-Modus¼-Modus
Ryzen Threadripper 2950X2 Dies, 16 Kerne, 4 Kanäle1 Die, 8 Kerne, 2 Kanälenicht verfügbar
Ryzen Threadripper 2990WX4 Dies, 32 Kerne, 4 Kanäle2 Dies, 16 Kerne, 4 Kanäle1 Die, 8 Kerne, 2 Kanäle

Für den schnellen Wechsel bietet das Ryzen-Master-Tool mit dem Game Mode und Creator Mode zwei vorgefertigte Profile an. Im Creator Mode werden alle Dies und Kerne genutzt, zudem arbeitet das System dann im Distributed Mode (UMA). Im Game Mode werden hingegen mit einem Klick der Legacy Compatibility Mode sowie der Local Mode (NUMA) aktiviert.

Welche Auswirkungen beide Profile haben können, zeigen die Spielebenchmarks. So steigen die FPS in „Far Cry 5" um bis zu fast 25 %, in „Rise of the Tomb Raider" immerhin noch um 16 %. In anderen Fällen wie „F1 2017" hat ein Wechsel in den Game Mode nur in Hinblick auf die durchschnittlichen FPS einen positiven Effekt, andere Spiele zeigen sich - abgesehen von Messtoleranzen - unbeeindruckt.

Precision Boost 2 und XFR 2

Schon die erste Ryzen-Threadripper-Generation machte sich Sensor- und Analysepaket SenseMI zunutze, das fest mit der Zen-Architektur verbunden ist. Bedingt durch den Wechsel zu Zen+ bedeutet das für die zweite Generation vor allem an zwei Stellen Änderungen - wie schon beim Sprung von Ryzen zu Ryzen 2.

Die erste Änderung gibt es bei Precision Boost, an dessen genereller Funktionsweise sich nichts geändert hat. In Abhängigkeit von abgerufener Leistung sowie verfügbarem thermischen und elektrischen Budget kann der Takt einzelner Kerne in 25-MHz-Schritten reguliert werden. Eine feste Vorgabe, wie hoch der Takt bei einer bestimmten Anzahl an Kernen noch sein darf, gibt es somit nicht. Das macht das Taktverhalten flexibler, sorgt aber für eine gewisse „fehlende Präzision", wenn es um die Nennung von unterschiedlichen Geschwindigkeiten geht. Denn während Intel beispielsweise mehr oder minder offen verrät, welcher Turbotakt auf ein, zwei, vier oder sechs Kernen gefahren werden kann, verweist AMD lediglich auf einen Basis- sowie einen maximalen Takt; letzterer darf als Maximum für einen Kern betrachtet werden.

Während die kleinen 25-MHz-Schritte bei Precision Boost 1 aber nur dann möglich sind, wenn maximal zwei Kerne/vier Threads pro Die Last erzeugen und die Taktkurve dann bis zum Basistakt vergleichsweise steil nach unten geht, sinkt das Tempo bei Precision Boost 2 weitaus langsamer. Denn es spielt nun keine Rolle mehr, auf wie vielen Kernen Last anliegt. Dafür werden die entsprechenden Sensoren 1.000 Mal pro Sekunde aktiv und leiten ihre Informationen über den Infinity Fabric weiter. Über verschiedene Algorithmen wird dann der jeweils maximale Takt festgelegt. Das führt zwar zu vergleichsweise vielen Änderungen der Taktrate, über einen bestimmten Zeitraum betrachtet führt es aber zu einer durchschnittlich höheren Leistung. Für den Ryzen Threadripper 2950X nennt AMD beispielsweise einen Turbotakt von rund 3,9 GHz auf vier Kernen, etwa 3,7 GHz auf acht Kernen sowie knapp 3,6 GHz auf zwölf Kernen. Beim Ryzen Threadripper 2990WX sollen es etwa 3,8 GHz (acht Kerne), 3,6 GHz (16 Kerne) und knapp 3,5 GHz (24 Kerne) sein.

Als eine Art Zugabe darf Extended Frequency Range (XFR) verstanden werden. Mit XFR will AMD den Einsatz stärkerer Kühllösungen und das damit größere thermische Budget honorieren. So soll beispielsweise der Wechsel vom Wraith Ripper zu einer AiO-Wasserkühlung mit 360-mm-Radiator bei gleicher Umgebungstemperatur eine zusätzliche Leistung von etwa 2 % bringen. Denn dank des größeren thermischen Budgets kann die Taktrate über das von AMD genannte Limit angehoben werden. Zwar spricht das Unternehmen von einem Leistungsplus im Bereich von bis zu 16 %, geht dabei aber unter anderem von unterschiedlichen Umgebungstemperaturen aus.

Während XFR 1 bei der ersten Ryzen-Threadripper-Generation - ähnlich wie Precision Boost 1 - nur auf maximal zwei Kernen pro Die den Takt anheben kann, gibt es ein solches Limit bei XFR 2 nicht. Wie schon im Test der zweiten Ryzen-Generation zeigt sich aber, dass das Plus zu vernachlässigen ist, mehr als 50 zusätzliche MHz konnten in der Spitze nicht durch eine leistungsfähigere Kühlung erreicht werden.