EPYC und Ryzen Threadripper: Das CCD- und L3-Layout für 16 bis 64 Kerne

Thread Starter
Mitglied seit
06.03.2017
Beiträge
113.464
amd-epyc-2ndgen.jpg
Die EPYC-Prozessoren der zweiten Generation alias Rome sind bereits offiziell vorgestellt worden. Die dritte Generation der Ryzen-Threadripper-Prozessoren wird auf der gleichen Hardware basieren – verwendet also auch einen zentralen I/O-Die und bis zu acht Compute-Chiplets mit wiederum jeweils acht Kernen. ... weiterlesen
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Garnicht so Dumm.
Für den 24 Kerner...
Man nehme 4 CCD, die 2 am schlechtesten Taktenden Kerne abschalten jeweils.
 
Schön mal so eine Übersicht zu sehen. Ist aber nichts überraschendes dabei und man konnte sich den Aufbau ja anhand der bekannten Produktinformation erschließen.
 
Schön mal so eine Übersicht zu sehen. Ist aber nichts überraschendes dabei und man konnte sich den Aufbau ja anhand der bekannten Produktinformation erschließen.

Da auch die Cache-Größen bekannt sind, konnte man das ja. Dennoch interessant das noch einmal grafisch bestätigt zu sehen.
 
Das es so ist wie es ist, ist doch eh die einzig logische Möglichkeit, das so zu bauen, wie man es eben gebaut hat?
MMn ist das auch der Grund, warum da nicht groß drüber debattiert wird - es gibt keine anderen Optionen. Wenn der L3 Cache in der entsprechenden Größe drin ist - muss die Anzahl der Chiplets entsprechend hoch sein. Dass man teure 7nm Chips nicht unsinnig da rein "baut" und dann brach liegen lässt oder nur teilaktiv lässt, obwohl man die Möglichkeit hätte, das auch anders lösen zu können ist ebenso völlig logisch. Heist, ein 32C Epyc hat keine sechs oder acht voll funktionisfähigen (oder voll aktiven - passt vllt eher) Chiplets, wenn es keinen mit 32C bei vollem 256MB L3 Cache gibt. Sondern eben nur die Hälfte. Wie soll das auch anders möglich sein?


Die interessanten Fragen sind aber weiter ungeklärt - bspw. wissen wir, dass die Anbindung zwischen Chiplet und IO Chip Bandbreitenlimitiert ist und ebenso, dass AMD beim 1xChiplet AM4 Prozessor die eine Richtung künstlich limitiert.
Hier wäre bspw. die Frage, wie viel reale Bandbreite kommt da praktisch bei rum? Bei AM4 braucht man einen voll- oder zwei halb angebundene Chips um zwei Speicherkanäle auszunutzen (write). Epyc hat acht Kanäle. Also wären theoretisch auch volle vier Chips notwendig (oder acht halbe), wenn die Bandbreite intern nicht anders umverteilt wird oder der IF-Interconnect intern beim Epyc Design nicht deutlich breiter ausfällt.

Nimmt an an, die IF Bandbreite zwischen IO und Chiplet ist gleich wie auf AM4 - wäre ein zwei Chiplet 16C TR eine ziemlich blöde Idee für alle, die ansatzweise auf einen gewissen IO Durchsatz stehen. Denn mit ~55-57GB/sec Durchsatz bekommt man mal gerade so ein 256Bit RAM Interface versorgt, wenn da nicht lahmer 2133er RAM dran klemmt - aber nicht zusätzlich noch das Raid aus den PCIe 4.0 SSDs ;)

Möglicherweise ist das vllt auch ein weiteres Unterscheidungsmerktmal zwischen den Workstation Versionen und den Endkunden HEDT Versionen, die ja seit geraumer Zeit spekuliert werden? Also WX = volle 32B/cycle Anbindung je Chiplet und Desktop analog AM4 auf die Hälfte in eine Richtung beschränkt?
Theoretisch würde man damit wohl nicht mal wenig an Energieaufnahme einsparen können, wenn man das nicht voll ausfahren lässt - auf der anderen Seite -> 250-280W? Mutet jetzt nicht gerade zum Sparen an...
 
Wurde doch von amd erwähnt das epic auch in eine richting kastriert ist. Zugunsten der leidtungsaufnahme und der chipgröße.
 
Echt? Hab ich gar nicht mitbekommen...

Aber dann heist das ja unterm Strich, mit zwei halb kastrierten DIEs wäre ein 16C TR nicht in der Lage, volle Memory Bandbreite schreibend zu erzielen. MMn ein ziemlich unnötiger move... Das egalisiert mal direkt einen der beiden Hauptgründe für einen 16C (ggü. einem 16C AM4)
 
Vereinfacht gesagt, braucht man je ein CCD pro Speicherkanal, um die volle Schreibrate nutzen zu können.
 
Vereinfacht gesagt, braucht man je ein CCD pro Speicherkanal, um die volle Schreibrate nutzen zu können.

Wenn man nur auf Write-Bandbreite beim RAM schaut ja - aber ist nicht der Vorteil der TR gerade die IO Leistung? Ich mein, 128x PCIe 4.0 Lanes -> bei vier Chiplets mit halbseitig kastrierter Schreibleistung -> in einem Filer mit aktivem RAM Cache wandern die Daten vom Storage über den Prozessor in den RAM. Das heist, da hängt dann nicht nur der Write Speed in der RAM Bandbreite dran, sondern eben auch deine PCIe Lanes. Oder gibts für PCIe extra Links zwischen den Chiplets und dem IO DIE? Könnte mich irren, aber ich meine nicht... Wenn nicht, fallen da auch bspw. Inter-CCD L3 Cache Hits mit rein. Ich denke da bspw. an Microsofts wunderhübsche Eigenart, den Threadscheduler die aktiven Threads munter über den ganzen Prozessor zu schubsen zu lassen. Da gehen also Permanent Daten durch, weil permanent Cacheinhalte übertragen werden müss(t)en.
 
Die News sagt jetzt wie viel über die kommenden TR 3000 aus? Man könnte es so machen, klar, muss es aber nicht. Außer das ein 64 Kerner eben 8 Chiplets braucht bei denen jeweils alle 8 Kerne aktiv ist, sagt der Aufbau der einzelnen EPYC Rome, so interessant er auch ist, genau gar nichts über die TR3000 aus, denn ob es einen 64 Kerner geben wird, wissen wir doch noch gar nicht. Einzig ein 24 Kerner ist bisher bestätigt, einen 32 Kerner kann man als sicher annehmen, da es ja auch bisher einen 32 Kerner gibt. Aber bisher gibt es auch 12 und 16 Kern TR2000er, ob es auch 3000er mit nur 16 oder gar nur 12 Kernen geben wird, ist ungewiss, gibt es doch 12 Kerne schon im 3900X und 16 wollen im 3950X für den AM4 Sockel folgen. Also wird es eher mehr Kerne geben, aber ob und ob dann bei 48 oder 64 Schluss ist, wissen wir dennoch nicht.
 
@fdsonne: TR3000 wird m. E. mindestens jeweils 4 CacDs haben. Das sind grob geschätzt 100GB/s in Schreibrichtung. Ich gehe auch von 64 PCIe-Lanes aus, die sehr grob 128 GB/s schaffen. Einen Engpass gäbe es also erst, sobald mehr als 50 PCIe-Lanes gleichzeitig ausgelastet werden. Und das dürfte selten sein.

@Holt: Die Meldung sagt wenig über TR3000 direkt aus, das ist klar.

Ich hoffe, dass AMD es so macht:

Kleine TR3000:
16, 24 und 32 Kerne. Jeweils 4 CCDs und 128MB L3-Cache, 64 PCIe-Lanes. Quad-Channel Speicherinterface. Kompatibel mit Sockel TR4. Mit X399-Boards nur PCIe 3.0, mit neuen Board auch PCIe 4.0.

Große TR3000:
32, 48 und 64 Kerne. Jeweils 8 CCDs und 256MB L3-Cache. 64 PCIe-Lanes. Octo-Channel Speicherinterface. Neuer Sockel SP3r3. Neuer Chipsatz. Immer PCIe 4.0.

Ich habe auch die Vermutung, dass nur zwei neue Chipsätze kommen und AMD zwischen den Bezeichnungen WRX80 und TRX80 schwankt(e).
 
Zuletzt bearbeitet:
Also, der WRX80 wird mit 96 - 128x PCIe 4.0 Lanes kommen, das ist doch schon bekannt.
 
Wo steht das?

Hab die Info gefunden. Macht für mich aber irgendwie keinen Sinn. TRX40 soll vier Speicherkanäle und 64 PCIe-Lanes bieten. Dafür braucht man aber keinen neuen Sockel, weil das TR4 doch schon hat. Und der WRX80 soll acht Speicherkanäle und 128 PCIe-Lanes bieten, was schon der Sockel SP3 kann. Der Sockel SP3r3 soll ja auch noch kommen. Entweder mit vier Speicherkanälen und 128 PCIe-Lanes oder mir acht Speicherkanälen und 64 PCIe-Lanes, nehme ich mal an.

Wir werden es sehen...
 
Zuletzt bearbeitet:
Der Chipsatz an sich hat auch herzlich wenig mit den Lanes zu tun, es ist viel mehr die Anforderung des Mainboard Layouts alle Lanes des I/O Dies nach aussen zu führen.

Eindeutiger wäre WRX80 Plattform.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh