> > > > AMD Rome mit 256 MB L3-Cache: Zwei Quad-Core-CCX mit jeweils 16 MB pro Chiplet

AMD Rome mit 256 MB L3-Cache: Zwei Quad-Core-CCX mit jeweils 16 MB pro Chiplet

Veröffentlicht am: von

amd-newhorizonAuf dem New-Horizon-Event stellt AMD seine EPYC-Prozessoren der zweiten Generation vor. Diese werden bis zu 64 CPU-Kerne bieten – verteilt auf acht Chiplets mit jeweils acht Kernen – gefertigt in 7 nm sowie einem zentralen I/O-Chip, der weiterhin in 14 nm gefertigt wird.

Die wichtigsten technischen Daten kennen wir aber noch nicht. So ist nicht bekannt, wie AMD das Speicherinterface mit acht Kanälen an die einzelnen Chiplets anbinden wird. Unbekannt ist außerdem die genaue Konfiguration der Infinity-Fabric-Interconnects. Auch zu den einzelnen Modellen und deren Taktraten gibt es noch keine offiziellen Informationen, auch wenn ein Supercomputer in Deutschland mit den Rome-Prozessoren ausgestattet werden soll und diese bei 64 Kernen mit bis zu 2,35 GHz arbeiten – so zumindest hat es eine Präsentation auf der Supercomputing 2018 verraten.

Die Datenbank von SiSoft Sandra verrät nun Details zum L3-Cache eines Rome-Prozessors mit 64 Kernen. Dieser wird mit "16x 16 MB L3" ausgelesen, was bei acht Chiplets zwei Quad-Core-CCX-Cluster pro Chiplet vermuten lässt. Auf einem Chiplet sind demnach 32 MB L3-Cache vorhanden, insgesamt also 256 MB für einen Prozessor mit acht Chiplets. Bei 16 MB für vier Kerne würde dies im Vergleich zur ersten Generation der EPYC-Prozessoren einer Verdopplung des L3-Caches entsprechen. Ein aktueller AMD Epyc 7601 mit 32 Kernen bietet 64 MB L3-Cache – 8 MB pro CCX bzw. 16 MB pro Zeppelin-Die.

Die Verdopplung des L3-Caches dürfte AMD vor allem dabei helfen, die Daten so lange wie möglich beim jeweiligen Chiplet zu belassen und nicht über den I/O-Die und den angebundenen DDR4 ständig lesen und schreiben zu müssen. Die Kommunikation zwischen den Chiplets, dem I/O-Die und über die Speicherkanäle dürfte kritisch für die Leistung und Effizienz der Rome-Prozessoren sein. Bisher hat sich AMD zu diesem Thema aber noch nicht offiziell geäußert.

Hartnäckig halten sich die Gerüchte, AMD könnte auf dem I/O-Die einen L4-Cache verbauen, um die Relevanz der externe Anbindung weiter zu reduzieren. Ein doppelt so großer L3-Cache würde die Notwendig eines weiteren L4-Caches als Zwischenebene zum Arbeitsspeicher aber weiter reduzieren.

Social Links

Ihre Bewertung

Ø Bewertungen: 5

Tags

Kommentare (33)

#24
customavatars/avatar132096_1.gif
Registriert seit: 26.03.2010

Kapitänleutnant
Beiträge: 1794
Zitat Holzmann;26655720
Somit könnte ein L3 Drive in greifbare Nähe rücken. :bigok:


meine erste hdd hatte tatsächlich weniger speicher :vrizz:
#25
Registriert seit: 05.07.2010

Admiral
Beiträge: 16697
unl34shed, die Strukturgrößen des Prozesses haben mit den BGA Pads doch nun gar nichts zu tun, man nimmt 14nm für den I/O Chip, weil das günstiger ist und man die Abnahmeverträge mit GF erfüllen muss, aber sonst gibt es dafür keinen Grund. Bei den Energieverbrauch der IF wären 7nm technisch der viel bessere Prozess für diesen Chip gewesen.
#26
Registriert seit: 13.02.2006
Koblenz
Admiral
Beiträge: 10481
Seine Bedenken, das man am I/O Chip nicht genug Fläche hat um alles anzubinden kann ich aber schon nachvollziehen. Immerhin müssen alle AM4 Pins an den I/O Chip und zusätzlich noch die Chiplets angebunden werden. Da kommt schon was zusammen.

Die Hauptgründe werden aber wohl a) die Verträge mit GloFo und b) die nicht lohnenswerte Skalierung des I/O Die auf 7nm sein. Es wird schon was bringen, aber wieviel? Vermutlich nicht genug um 7nm am I/O Die zu rechtfertigen. Man sollte sich bewusst sein, das AMD derzeit möglichst kosteneffizient versucht CPUs zu bauen. Das die dabei noch schnell sind, ist natürlich super.
#27
customavatars/avatar287074_1.gif
Registriert seit: 29.08.2018

Bootsmann
Beiträge: 721
Zitat
Immerhin müssen alle AM4 Pins an den I/O Chip

Alle nicht, die Chiplets werden wohl zumindest die Stromversorgung noch direkt vom Sockel bekommen.
#28
Registriert seit: 05.11.2007
Neckar-Odenwald Kreis
Kapitän zur See
Beiträge: 3621
Zitat Holt;26658351
unl34shed, die Strukturgrößen des Prozesses haben mit den BGA Pads doch nun gar nichts zu tun, ...


Hab ich was anderes behauptet?
Die BGA Pads bzw. ihre Anzahl geben aber die Chipgröße vor, da es sich (wie seit Jahren Standard) wohl wieder um einen Flip Chip handelt. Und die solderballs demnach mit dem top Metal laser verbunden werden.
#29
Registriert seit: 05.07.2010

Admiral
Beiträge: 16697
Zitat Tzk;26658568
Seine Bedenken, das man am I/O Chip nicht genug Fläche hat um alles anzubinden kann ich aber schon nachvollziehen.
Die BGA Pads sind unten an der CPU und verbinden diese mit dem Sockel, die gibt also nur die Größe der Trägerplatine der CPU und des Sockels vor und hat nichts damit zu tun wie die Abstände der Verbindungspunkte zwischen dem Die und der Trägerplatine sind.
Zitat Tzk;26658568
Immerhin müssen alle AM4 Pins an den I/O Chip und zusätzlich noch die Chiplets angebunden werden. Da kommt schon was zusammen.
Mehr als der Sockel Pins hat plus denen der IF Anbindung des Chiplets auch nicht, sofern AMD überhaupt bei den AM4 Zen2 auf diese Technik setzen wird, dies ist ja noch gar nicht bekannt.

Bei den üblichen 100μm sind das 100 Verbindungen pro mm² Diesize und AM4 hat 1331 Pins, sagen wir also großzügig man bräuchte 2000 Verbindungen für einen I/O Chip für AM4, so wären 20mm² ausreichend, also nicht einmal ein Zehntel der Größe des Zepplin Dies.
Zitat Tzk;26658568
Die Hauptgründe werden aber wohl a) die Verträge mit GloFo und b) die nicht lohnenswerte Skalierung des I/O Die auf 7nm sein.
Wenn man sich ansieht wie hoch die Leistungsaufnahme der IF und des Uncore ist, dann denke ich schon das es sich technisch gelohnt hätte den I/O Chip auch in 7nm zu fertigen: Bei EPYC 7601 macht unter Last die Leistungsaufnahme der Kerne gerade die Hälfte der gesamten Leistungsaufnahme aus und nur die Kerner werden durch die 7nm effizienter, der I/O Chip könnte daher bei Rome durchaus die Hälfte der Leistungsaufnahme ausmachen und damit würde es sich sicher lohnen diese Leistungsaufnahme ebenfalls durch ein Fertigungsverfahren zu senken welches eine bessere Effizienz ermöglicht. Bei der nächsten dürfte dies dann wohl auch gemacht werden.
Zitat Tzk;26658568
Man sollte sich bewusst sein, das AMD derzeit möglichst kosteneffizient versucht CPUs zu bauen.
Eben und da ist ein 14nm I/O Chip billiger, zumal die Schaltungen ja bisher auch schon für den 14nm Prozess von GF im Zeppelin Die vorliegen, die einzelnen Funktionsgruppen müssen also nicht neu designt, sondern nur neu arrangiert werden.

Zitat unl34shed;26658928
Hab ich was anderes behauptet?
Ja:
Zitat unl34shed;26657161
Holt, der limitieren der Faktor sind die BGA Pads bzw. Balls. Die können nicht beliebig verkleinert werden.
Das trifft eben bei CPUs nur auf die Größe der Trägerplatine zu.
Zitat unl34shed;26658928
Die BGA Pads bzw. ihre Anzahl geben aber die Chipgröße vor, da es sich (wie seit Jahren Standard) wohl wieder um einen Flip Chip handelt.
Und wieder wirfst Du die Verbindung des Dies mit der Trägerplatine und die der Trägerplatine mit dem Sockel durcheinander.
#30
Registriert seit: 05.11.2007
Neckar-Odenwald Kreis
Kapitän zur See
Beiträge: 3621
Zitat Holt;26660253
Bei den üblichen 100μm sind das 100 Verbindungen pro mm² Diesize und AM4 hat 1331 Pins, sagen wir also großzügig man bräuchte 2000 Verbindungen für einen I/O Chip für AM4, so wären 20mm² ausreichend, also nicht einmal ein Zehntel der Größe des Zepplin Dies.


"For this particular CPU [AMD Duron] there are about 3,000 flip chip bumps on the underside of that piece of silicon. For comparison purposes the Pentium 4 has about 5,000 flip chip bumps and the Intel Itanium has around 7,500"
Quelle: The Anatomy of a Package - The Future of CPU Packaging: Intels BBUL

Das sind übrigens die Sockel 478 Pentium 4, Sockel 775 kam erst ein paar Jahre später raus.

Ich bezweifel mal, dass sich nach fast 20 Jahren und den mittlerweile minimal komplexeren Systemen die Anzahl der bumps signifikant verringert hat, sondern gehe mal vom Gegenteil aus.
Diese scheiß Physik ist schon ein ********* :fresse:


Zitat Holt;26660253
Und wieder wirfst Du die Verbindung des Dies mit der Trägerplatine und die der Trägerplatine mit dem Sockel durcheinander.


Also willst du dich jetzt darauf versteifen, dass obwohl unter einem Flip Chip ein Array von Zinnkugeln genutzt wird um diese auf der Trägerplatine zu befestigen man das nicht BGA nennen darf?
Wenn es dir aber lieber ist, kann sie in Zukunft Flipchip Bumps nennen...
#31
Registriert seit: 05.07.2010

Admiral
Beiträge: 16697
Keine Ahnung was Du mir mit der Anzahl der flip chip bumps historischer CPUs sagen willst, aber ich bleibe dabei das nicht Anzahl der flip chip bumps ist die einen so großen I/O Chip erzwingt.
#32
Registriert seit: 05.11.2007
Neckar-Odenwald Kreis
Kapitän zur See
Beiträge: 3621
Vielleicht, dass deine Annahme: Bei 1331 pins sind es ca 2000 bumps (sprich Faktor 1,5) sehr wahrscheinlich komplett daneben liegt, wenn man damals schon Faktoren von 6,5(Duron), 10,5(P4) und 16,75(IA64) genutz wurden.
Und das bei damals sehr wahrscheinlich größeren solder bumps, sprich der Möglichkeit mehr Energie pro bump zu übertragen.
#33
customavatars/avatar89889_1.gif
Registriert seit: 19.04.2008
PorscheTown
Vizeadmiral
Beiträge: 6898
Zitat Luebke;26657848
meine erste hdd hatte tatsächlich weniger speicher :vrizz:

Bei mir waren es 80MByte im 5.1/4 inch mit zwei HE. :-[
256MByte L3 Cache lassen sich bestimmt auch mit L4 Partitionieren, oder als Snoop Filter nutzen. :hail:
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren: