Unified Memory, NUMA etc. hat AMD mit Llano anno 2011 versprochen
NUMA ist was anderes, aber gebracht hat AMD das Unified Memory erst bei der letzten oder den beiden letzten APU Generationen vor Zen, wo also die GPU einfach auf das RAM der CPU zugreifen und eine Operation auf den Daten dort ausführen und die CPU dann weitermachen konnte, ohne irgendwas kopieren zu müssen. Damit war die GPU dann praktisch wie eine Befehlserweiterung für die CPU und genau dies war eben das Konzept hinter der ganzen APU Geschichte. Nur brauchte es eben auch entsprechend angepasst Software und bei der Unterstützung für die SW Entwickler war AMD auch nie stark, schon gar nicht wenn man es mit NVidias CUDA vergleicht.
Selbst die heutigen Klebechips sind nur ein Anfang. Das Zauberwort bei einer CPU ist Latenz, Latenz, Latenz und dann Cachegrößen Bandbreite etc.
Wenn du mit den Klebechips generell die Design auf Basis von Tiles meinst, so werden diese bleiben, schon weil die aktuellen Fertigungen nur noch recht kleine Diessizes erlauben, bei EUV sind es nur noch 26 mm * 33 mm und bei High-NA halbiert sich dies auf 26 mm * 16,5 mm, dann erhält man mit kleineren Dies eine größere Yield mit mehr Flexibilität. Entscheidend, auch für die Latenz, ist wie die Dies verbunden werden, also SERDES zu Sea Of Wires. SERDES bedeutet, dass man die Übertragungen seriell ausführt, ähnlich wie PCIe, was aber eben bedeutet, dass die Daten in Paketen übertragen werden und damit erhöht sich die Latenz gewaltig und ebenso die Leistungsaufnahme. AMDs IF ist ein Beispiel, aber deren Chiplets werden wie BGA Chips auf die Trägerplatine gelötet, was günstig ist, aber halt nicht so viele Verbindungen ermöglicht. Arrow Lake scheint auch SERDES zu verwenden, zumindest zwischen dem CPU Tile und dem SoC Tile, da man dort ja auch die Geschwindigkeit der Verbindung einstellen kann.
Sea Of Wires bedeutet, dass man die Signalleitungen über die Dies hinweg verbindet, was natürlich Halbleiterinterposer oder eben direktes Durchkontaktieren übereinander liegender Dies erfordert, wie es AMD bei dem 3D Cache machen dürfte. Die Latenz ist entsprechend gering, da es wie ein einzelnes Die Signallaufzeite müssen natürlich auch gleich sein, was bei parallelen Verbindungen mit steigenden Taktraten immer ein Problem war, weshalb man ja auch überall (z.B. PCI, PATA, SCSI) auf serielle Verbindungen umgestiegen ist. Keine Ahnung was Intel bei Clearwater Forest mit "Monolithic mesh coherent fabric" meint, aber vielleicht ist dies ja der Ansatz das Mesh mit Sea Of Wires von CPU Chiplet zum nächsten zu verbinden.
Da wird man sehen müssen, wer Sea Of Wires zuerst in den Desktop bringt, denn dies wird die Latenzen senken.
Ein wunderschönes Beispiel wie selbst planar limitiert erarbeitet gerade Intel mit dem bLLC gegenüber dem 3D Ansatz von AMD.
Wie willst du schon wissen ob diese sich unterschiedlich verhalten? Es sollte keinen Unterschied machen, ob der ganze Cache neben den Kernen liegt, oder wie bei AMDs X3D ein Drittel von ihm neben den Kernen und Zweidrittel dann über dem einen Drittel Cache sitzt. Bei Clearwater Forest sitzt übrigens der ganze L3 Cache (LLC) in den Base Chiplets. Neben der reinen Fertigung der Tiles, spielt eben auch das Packaging eine wichtige Rolle.