Sapphire Rapids: Chip mit vier Chiplets, aber ohne HBM abgelichtet

Thread Starter
Mitglied seit
06.03.2017
Beiträge
112.372
intel-2020.jpg
In Asien (Bilibili) sind Bilder eines Engineering Samples der übernächsten Xeon-Generation alias Sapphire Rapids aufgetaucht. Diese soll auf Ice Lake-SP folgen, die im Frühjahr erwartete Xeon-Generation. Mit Sapphire Rapids wird Intel einen größeren Plattform- und Ökosystemwechsel vollziehen. So wird Sapphire Rapids PCI-Express 5.0, DDR5 und auf Basis dessen Compute Express Link unterstützen. Außerdem war schon mehrfach die Rede von HBM-Speicher, der sich auf dem Package befinden soll.
... weiterlesen
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Weil so schön passt, sei hier nochmal die folgende Intel Folie erwähnt. Scheint ja ziemlich schlecht gealtert zu sein... :fresse2:

Ob man nun auch mit "inconsistent performance and higher latencies due to die-to-die interconnect" wirbt?

1612515368367.png
 
Was mir dazu einfällt...
1612519680991.png

Maybe :unsure:
 
Also entweder Intel hat riesige Mengen an Cache auf jedem Die oder es sind weit mehr Kerne untergebracht als man uns verraten will...
 
Also entweder Intel hat riesige Mengen an Cache auf jedem Die oder es sind weit mehr Kerne untergebracht als man uns verraten will...
Mehr cache macht durchaus sinn, mann will ja so wenig wie möglich daten über die leitungen zu den chiplets oder wie hier, gluelets schieben.
 
Das das Auffüllen vom Platz ausschließlich mit Cache utopisch ist sollte klar sein. Aber irgendwas müssen die dort ja gemacht haben, man wird wohl kaum den Chip größer machen als nötig.
 
Ob man nun auch mit "inconsistent performance and higher latencies due to die-to-die interconnect" wirbt?
Nein, weil man keinen derart schlechten Interconnect wie IF verwenden wird.

Dennoch bleibt Intel in Anbetracht der Probleme mit dem Fertigungsprozess keine andere Wahl, als auf einen Ansatz mit chiplets umzustellen. Mit den aktuellen yields schaffen sie bei monolithischen dies nicht mal (wirklich brauchbar) die Gegend von 16-24 cores.
 
weil man keinen derart schlechten Interconnect wie IF verwenden wird.
Jetzt bin ich aber gespannt... Was genau hat Intel denn bereits über den Interconnect gesagt? Hast du evtl. einen Link? Und wie kommst du drauf das es bei AMD am IF liegt?
 
Und was genau ist so schlecht daran? Muss ja auch ne gute Alternative geben.
 
Das das Auffüllen vom Platz ausschließlich mit Cache utopisch ist sollte klar sein. Aber irgendwas müssen die dort ja gemacht haben, man wird wohl kaum den Chip größer machen als nötig.
Fast die halbe Die-Fläche ist off-core und kein fetter zusätzlicher L3 weit und breit; sieht ganz nach dem üblichen Cove-Design aus.
Hier hat man eine Annotation versucht.
 
  • Danke
Reaktionen: Tzk
Jetzt bin ich aber gespannt... Was genau hat Intel denn bereits über den Interconnect gesagt?
Intel wird EMIB nutzen, wie sie es schon bei Kaby Lake-G gemacht haben, während AMD bei allen seinen CPUs bisher einfach Dies auf eine Platine lötet, also im Grunde nur BGA nimmt. Erst mit dem gestapelten 3D V-Cache kommt dann auch bei AMD eine modernere Verbindungstechnologie bei CPUs zu Einsatz die viel mehr Verbindungen erlaubt. Mit EMIB und Mesh kann Intel die Dies wahrscheinlich so verbinden, dass es für die Latenz keinen wirklichen Unterschied macht ob benachbarte Kerne auf dem gleichen oder unterschiedlichen Dies sitzen. Das das Ansatz bei Naples und den X399er TR nicht gerade glücklich war, hat AMD doch selbst erkannt und ist deshalb mit Zen2 auf den zentralen I/O Dies umgestiegen, der viele der vorherigen Probleme mit unterschiedlichen Latenzen vermeidet. Mit Zen3 hat AMD dann auch mit dem Wechseln von 4 auf 8 Kerne von CCX das Problem behoben, dass bei Zen2 auch die Kerne auf unterschiedlichen CCX des gleichen Dies nur über das I/O Die miteinander kommunizieren können. Bei Anwendungen / Benchmarks wie Cinebench wo die Kerne jeder für sich auf einem eigenen Teil der Daten arbeiten ohne viel miteinander kommunizieren zu müssen, macht sowas alles nicht viel aus, aber bei Anwendungen mit viel Kommunikation zwischen den Kernen eben schon.

Dennoch bleibt Intel in Anbetracht der Probleme mit dem Fertigungsprozess keine andere Wahl, als auf einen Ansatz mit chiplets umzustellen.
Das muss man unabhängig von Fertigungsproblemen schon wegen der gewaltig steigenden Entwicklungskosten für das Desgin bei kleineren Fertigungsverfahren, vom Design bis zu den Masken. Die machen es immer unwirtschaftlicher sehr komplexe Chips zu entwickeln und dann noch ähnliche Chips in unterschiedlichen Konfigurationen wie Intel es bei den Xeons bisher in Form der LCC, HCC und XCC Dies macht. Es ist aber auch unwirtschaftlich nur das XCC Die mit 40 oder mehr Kernen zu entwickeln und dann davon auch 8 Kerner zu verkaufen, bei dem 3/4 des Dies ungenutzt bleiben und solche Xeons sind die Brot-und Butter Modelle, die Topmodell machen nur wenige Prozent der Verkäufe aus. Daher macht es mehr Sinn einfach den Uncore in einem eigenen Dies zu fertigen, der kann auch in 14nm gefertigt werden, wenn man dies will und dann eben Chiplets mit 8 oder 12 Kernen und je nach Modell mehr oder weniger viele davon, die alle über EMIB und das Mesh mit ihren Nachbarn verbunden sind.

Nachdem TSMC ja nun offenbar auch solche Verbindungstechnologien besitzt, wird man früher oder später auch bei AMD so einen Ansatz sehen, einfach weil der sich dann genau wie ein monolithisches Die verhält, wenn man das Design richtig gemacht hat, was bei der Verbindungstechnik die AMD bisher nutzt, eben nicht geht, da man einfach nicht genug Verbindungen zwischen den Dies realisieren kann, dies geht nur wenn Halbleiterinterposer nimmt, also Halbleiter mit Halbleiter verbindet. Genau das macht man ja auch bei gestapelten NAND Dies, Intels 144L NAND ist das erste so sogar 3 Dies gestapelt sind und die 670p die dieses Dies hat, performt viel besser als ihre Vorgänger und auch bei dem gestapelten 3D V-Cache wird das zusätzliche RAM auf die Zen3 Chiplets gesetzt und direkt durchkontaktiert.

Solche Verbindungstechniken kosten natürlich auch Geld, wobei man sich beim Stapeln im Gegensatz zu EMIB das zusätzliche Die für die Verbindung spart. Es ist auch kein Zufall, dass solche Verbindungstechnologien jetzt verfügbar sind, sondern es war absehbar, dass man sie brauchen würde, je kleiner die Fertigungsverfahren werden und damit Entwicklungskosten für große monoplitische Dies werden, so dass ihre Wirtschaftlichkeit nur noch bei immer größeren Stückzahlen erreicht werden kann. Das liegt auch der Grund warum AMD bei Zen und Naples diese Ansatz gewählt hat, die hatten entweder gar nicht das Geld oder wollten das gewaltige Risiko nicht eingehen, große monolithische Dies für Server CPUs zu entwickeln, deren Absatzchancen gar nicht vorhersehbar waren, nachdem sie diesen Markt über Jahre praktisch gar nicht mehr bedient hatten.

Aber auch für Intel wird es nicht leichter werden die nötigen Stückzahlen zu erreichen, zumal Server CPUs immer mehr Kerne haben können und es damit immer mehr unterschiedliche Modelle geben muss, um den Kunden das für sie passende Modell bieten zu können. Vor nicht einmal 8 Jahren erschien Ivy Bridge-EP mit 18 SKUs basierend auf 3 Dies mit 6, 10 und 12 Kernen. Vor fast 4 Jahren erschien Skylake-SP mit bestimmt dreimal so vielen SKUs (habe sie nicht gezählt) und maximal 28 Kernen. Für Ice Lake-SP gibt Intels Seite auch maximal 28 Kerne an, obwohl durch den kleineren 10nm Fertigungsprozess weit mehr auf die gleiche Diefläche passen würden, grob doppelt so viele. Dies wird man mit Sapphire Rapids dann auch nutzen wollen, zumal der Sockel und damit der Platz unter dem HS noch größer wird. Wie viele SKUs es dann geben wird, kann man sich ja vorstellen-

Wenn 20 Dies auf einem Chiplet sind und es 4x5 = 20 davon gibt, dann wäre dies sogar 400 Kerne. Dies scheint mir nun aber doch übertrieben, so viel weniger Chipfläche braucht ein Dies dann in 10nm auch wieder nicht und die Kerne werden ja nicht abgespeckt. Aber auf diesem Bild sieht man klar 4x5 Dies und es sieht so aus, als wären an der Seite noch weitere Dies für den Uncorebereich. Also entweder sind die 20 Strukturen auf den einzelnen Dies gar nicht je ein Kern oder es ist wie bei Xeon Phi ein kleiner Kern um extrem viele Kerne zu ermöglichen. Oder das ganze war ein Fake, denn die zuletzt veröffentlichten Fotos sagen ja folgendes aus:
Wobei man auf dem Dieshot keine zusätzlichen Dies sieht, die direkt mit den 4 per Halbleiterinterposer verbunden sind. Demnach dürfte der Uncore Bereich, also was bei AMD im I/O Die steckt, in einem Chiplet unter den CPU Chiplets stecken, genau wie bei Lakefield, eine Technik die Intel Foveros nennt.
 
Intel wird EMIB nutzen, wie sie es schon bei Kaby Lake-G gemacht haben, während AMD bei allen seinen CPUs bisher einfach Dies auf eine Platine lötet, also im Grunde nur BGA nimmt. Erst mit dem gestapelten 3D V-Cache kommt dann auch bei AMD eine modernere Verbindungstechnologie bei CPUs zu Einsatz die viel mehr Verbindungen erlaubt. Mit EMIB und Mesh kann Intel die Dies wahrscheinlich so verbinden, dass es für die Latenz keinen wirklichen Unterschied macht ob benachbarte Kerne auf dem gleichen oder unterschiedlichen Dies sitzen. Das das Ansatz bei Naples und den X399er TR nicht gerade glücklich war, hat AMD doch selbst erkannt und ist deshalb mit Zen2 auf den zentralen I/O Dies umgestiegen, der viele der vorherigen Probleme mit unterschiedlichen Latenzen vermeidet. Mit Zen3 hat AMD dann auch mit dem Wechseln von 4 auf 8 Kerne von CCX das Problem behoben, dass bei Zen2 auch die Kerne auf unterschiedlichen CCX des gleichen Dies nur über das I/O Die miteinander kommunizieren können. Bei Anwendungen / Benchmarks wie Cinebench wo die Kerne jeder für sich auf einem eigenen Teil der Daten arbeiten ohne viel miteinander kommunizieren zu müssen, macht sowas alles nicht viel aus, aber bei Anwendungen mit viel Kommunikation zwischen den Kernen eben schon.


Das muss man unabhängig von Fertigungsproblemen schon wegen der gewaltig steigenden Entwicklungskosten für das Desgin bei kleineren Fertigungsverfahren, vom Design bis zu den Masken. Die machen es immer unwirtschaftlicher sehr komplexe Chips zu entwickeln und dann noch ähnliche Chips in unterschiedlichen Konfigurationen wie Intel es bei den Xeons bisher in Form der LCC, HCC und XCC Dies macht. Es ist aber auch unwirtschaftlich nur das XCC Die mit 40 oder mehr Kernen zu entwickeln und dann davon auch 8 Kerner zu verkaufen, bei dem 3/4 des Dies ungenutzt bleiben und solche Xeons sind die Brot-und Butter Modelle, die Topmodell machen nur wenige Prozent der Verkäufe aus. Daher macht es mehr Sinn einfach den Uncore in einem eigenen Dies zu fertigen, der kann auch in 14nm gefertigt werden, wenn man dies will und dann eben Chiplets mit 8 oder 12 Kernen und je nach Modell mehr oder weniger viele davon, die alle über EMIB und das Mesh mit ihren Nachbarn verbunden sind.

Nachdem TSMC ja nun offenbar auch solche Verbindungstechnologien besitzt, wird man früher oder später auch bei AMD so einen Ansatz sehen, einfach weil der sich dann genau wie ein monolithisches Die verhält, wenn man das Design richtig gemacht hat, was bei der Verbindungstechnik die AMD bisher nutzt, eben nicht geht, da man einfach nicht genug Verbindungen zwischen den Dies realisieren kann, dies geht nur wenn Halbleiterinterposer nimmt, also Halbleiter mit Halbleiter verbindet. Genau das macht man ja auch bei gestapelten NAND Dies, Intels 144L NAND ist das erste so sogar 3 Dies gestapelt sind und die 670p die dieses Dies hat, performt viel besser als ihre Vorgänger und auch bei dem gestapelten 3D V-Cache wird das zusätzliche RAM auf die Zen3 Chiplets gesetzt und direkt durchkontaktiert.

Solche Verbindungstechniken kosten natürlich auch Geld, wobei man sich beim Stapeln im Gegensatz zu EMIB das zusätzliche Die für die Verbindung spart. Es ist auch kein Zufall, dass solche Verbindungstechnologien jetzt verfügbar sind, sondern es war absehbar, dass man sie brauchen würde, je kleiner die Fertigungsverfahren werden und damit Entwicklungskosten für große monoplitische Dies werden, so dass ihre Wirtschaftlichkeit nur noch bei immer größeren Stückzahlen erreicht werden kann. Das liegt auch der Grund warum AMD bei Zen und Naples diese Ansatz gewählt hat, die hatten entweder gar nicht das Geld oder wollten das gewaltige Risiko nicht eingehen, große monolithische Dies für Server CPUs zu entwickeln, deren Absatzchancen gar nicht vorhersehbar waren, nachdem sie diesen Markt über Jahre praktisch gar nicht mehr bedient hatten.

Aber auch für Intel wird es nicht leichter werden die nötigen Stückzahlen zu erreichen, zumal Server CPUs immer mehr Kerne haben können und es damit immer mehr unterschiedliche Modelle geben muss, um den Kunden das für sie passende Modell bieten zu können. Vor nicht einmal 8 Jahren erschien Ivy Bridge-EP mit 18 SKUs basierend auf 3 Dies mit 6, 10 und 12 Kernen. Vor fast 4 Jahren erschien Skylake-SP mit bestimmt dreimal so vielen SKUs (habe sie nicht gezählt) und maximal 28 Kernen. Für Ice Lake-SP gibt Intels Seite auch maximal 28 Kerne an, obwohl durch den kleineren 10nm Fertigungsprozess weit mehr auf die gleiche Diefläche passen würden, grob doppelt so viele. Dies wird man mit Sapphire Rapids dann auch nutzen wollen, zumal der Sockel und damit der Platz unter dem HS noch größer wird. Wie viele SKUs es dann geben wird, kann man sich ja vorstellen-

Wenn 20 Dies auf einem Chiplet sind und es 4x5 = 20 davon gibt, dann wäre dies sogar 400 Kerne. Dies scheint mir nun aber doch übertrieben, so viel weniger Chipfläche braucht ein Dies dann in 10nm auch wieder nicht und die Kerne werden ja nicht abgespeckt. Aber auf diesem Bild sieht man klar 4x5 Dies und es sieht so aus, als wären an der Seite noch weitere Dies für den Uncorebereich. Also entweder sind die 20 Strukturen auf den einzelnen Dies gar nicht je ein Kern oder es ist wie bei Xeon Phi ein kleiner Kern um extrem viele Kerne zu ermöglichen. Oder das ganze war ein Fake, denn die zuletzt veröffentlichten Fotos sagen ja folgendes aus:
Wobei man auf dem Dieshot keine zusätzlichen Dies sieht, die direkt mit den 4 per Halbleiterinterposer verbunden sind. Demnach dürfte der Uncore Bereich, also was bei AMD im I/O Die steckt, in einem Chiplet unter den CPU Chiplets stecken, genau wie bei Lakefield, eine Technik die Intel Foveros nennt.

wow, oder kurz zusammengefasst ;

Ja, Intel weiß schon lange das es nicht wirtschaftlich ist eine 18 core+ architektur zu bauen, denn wir wir alle wissen ist die Yield schlecht ..news von 2011 ?!

warum hab ich das überhaupt gelesen ? - soviel text, wo ein satz reicht.
 
@Holt
Intel wird EMIB nutzen, wie sie es schon bei Kaby Lake-G gemacht haben, während AMD bei allen seinen CPUs bisher einfach Dies auf eine Platine lötet, also im Grunde nur BGA nimmt. Erst mit dem gestapelten 3D V-Cache kommt dann auch bei AMD eine modernere Verbindungstechnologie bei CPUs zu Einsatz die viel mehr Verbindungen erlaubt.
:lol:
Du schmeißt hier die Techniken durcheinander, daß eine wahre Pracht ist.
 
@Holt
TSMCs Entsprechung von Intels EMIB (Embedded Die Interconnect Bridge) ist LSI (Local Si Interconnect) für InFO (Qualifizierung Q1/21) und CoWoS (meiner Erinnerung nach noch nicht fertig).
TSMCs 3D-Chipstacking (SoIC) hat seine Entsprechung in Intels Foveros, was wir im Lakefield i5-L16G7 vorgeführt bekommen haben.
 
Zuletzt bearbeitet:
EDIT: nevermind...
Also hast Du gesehen, wo da EMIB eingesetzt wurde.

TSMCs Entsprechung von Intels EMIB
TSMC hat inzwischen vergleichbare Packingstechnologien, daher vermute ich ja, dass künftig auch AMD solche Technologien einsetzen wird, weil das eben die Nachteile von Chiplet Designs bezgl. der Verbindung der Chiplets ausgleicht. Deshalb steht ja auch auf der Folie in Post #2 oben "Implementation matters" und wie sehr das stimmt, hat man ja bei EPYC und TR beim Wechsel von Zen(+) mit 4 Desktop Dies auf Zen2 mit dem I/O Die auch schon deutlich gesehen.
 
@Holt
Von Zen zu Zen2 hat sich die Topologie der CPU völlig geändert:
Naples ist eigentlich ein Multi-Prozessor-System auf einem gemeinsamen Träger.
Rome ist ein Prozessor mit auf verschiedene Dies aufgeteilten Resourcen.
Das hat erst einmal grundsätzlich mit der physischen Anbindung der Dies untereinander nichts zu tun.

Der Nachteil von AMDs Chiplet-Design ist die Latenz der IF-Die-zu-Die-Verbindung.
Längerfristig könnte die IF eleminiert werden, in dem per SoIC (WOW) der CCX-Hub eines CCDs direkt an einen Root-Hub des IOD angebunden würde.
Ich bin gespannt, ob sowas realisiert werden wird.
 
Von Zen zu Zen2 hat sich die Topologie der CPU völlig geändert:
Naples ist eigentlich ein Multi-Prozessor-System auf einem gemeinsamen Träger.
Rome ist ein Prozessor mit auf verschiedene Dies aufgeteilten Resourcen.
Das hat erst einmal grundsätzlich mit der physischen Anbindung der Dies untereinander nichts zu tun.
Richtig und ich habe ja auch nie behauptet, dass es etwas mit der Technologie der physischen Anbindung der Dies untereinander zu tun hätte, die ist bei beiden gleich und im Prinzip wie BGA. Naples ist eben eine glued together Prozessor aus 4 Desktop Dies der eigentlich Multi-Prozessor-System auf einem gemeinsamen Träger ist und weniger eine komogene CPU, wie man sie dann mit Technologien wie EMIB erreichen kann. Daher ist die Folie in Post #2 richtig und taugt nicht um darüber zu spotten, wenn Intel nun auch auf Chiplets setzt. "Implementation matters" und dies zeigt sich eben auch deutlich beim Wechsel von Naples auf Rome, also von vier Desktop Dies unter einen HS zu 4 CCX Chiplets mit einem zentralen I/O Die, unabhängig von der verwendeten Verbindungstechnologie für diese Dies.
Der Nachteil von AMDs Chiplet-Design ist die Latenz der IF-Die-zu-Die-Verbindung.
Die IF braucht man eben, um mit den beschränkten Anzahl an Verbindungen auszukommen die mit dieser Verbindungstechnologie möglich ist, trotzdem eine hohe Bandbreite zu erreichen.
Ich bin gespannt, ob sowas realisiert werden wird.
Mal sehen was AMD da in Zukunft machen wird, Intels Wechsel vom Ringbus zu Mesh dürfte jedenfalls bzgl. des Chiplet Designs ein guter Schritt gewesen sein, da man damit die Dies über das Mesh verbinden und so sehr vielen parallele Verbindungen bekommen kann.
 
Hi heißt es man darf hier gespannt sein wie die Leistung immer besser wird.Da bin ich ja mal gespannt.

Also ich habe mal direkt den vergleich von Threadripper 2990wx zu 3970x gemacht. Ich frage mich was da wohl großartig sich verändert hat.Das was ich da gesehen habe ist nur nen doppelten L3 Cache,mehr CPU Takt und bessere Latenzen bei den ganzen L1,L2 und L3 Cache. Aber auch nur ein bisschen. Und ich habe einen direkten vergleich 1 zu 1 mit dem gleichen Takt vorliegen. Da sind es dann bis zu 4 % mehr Leistung. Ich weis immer noch nicht was diese mehrleistung zu verantworten hat.Denn es sind ja noch immer die selbe Anzahl an Transistoren und so.ALso daran kann es ja nicht sein.Aber wie unterscheiden die sich denn noch von einander?
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh