Werbung
Ab dem kommenden Jahr werden alle neuen KI-Beschleuniger auf den schnelleren HBM4 setzen. Dieser erhöht nicht nur die Speicherbandbreite im Vergleich zum HBM3E, sondern auch in der Kapazität werden die Beschleuniger noch einmal deutlich zulegen. So werden die Instinct-MI400-Beschleuniger von AMD auf 432 GB an Kapazität und eine Speicherbandbreite von 19,6 TB/s kommen. In ähnliche Dimensionen wird NVIDIA mit der Rubin-Generation vorstoßen, wenngleich man sich hier noch nicht konkret zu Kenngrößen äußern wollte.
Mit der HBM4-Generation wird es aber auch größere Änderungen im Aufbau der Speicherarchitektur geben. Der Grund dafür ist das in der Standardausführung von 1.024 auf 2.048 Bit verbreiterte Speicherinterface. Damit kommt ein HBM4-Speicherstack auf 11 GBit/s, was fast 40 % über der JEDEC-Vorgabe für HBM4 liegt. AMD und NVIDIA haben offenbar Druck auf die Speicherhersteller gemacht und so waren diese bemüht, den Takt der DRAM-Stacks weiter zu erhöhen – zunächst auf 10 GBit/s und nun für die ersten finalen Samples auf 11 GBit/s.
Das breitere Speicherinterface sorgt dafür, dass die Integration des HBM4 deutlich komplexer wird. Typischerweise erfolgt diese mittels eines Silizium-Substrats.
Die JEDEC hat nun die Spezifikationen eines SPHBM4-Standards vorbereitet. Die Abkürzung steht für Standard Package High Bandwidth Memory. Für diesen SPHBM4 reduziert die JEDEC die Breite des Speicherinterface von 2.048 auf 512 Bit. Mittels 4:1-Serialisierung wird jedoch sichergestellt, dass die gleiche Bandbreite erreicht wird. Die Änderung von 2.048 auf 512 Bit in der Breite ermöglicht den für die Verbindung mit organischen Substraten erforderlichen entspannten Bump-Abstand. Dies sollte sich positiv auf die Kosten auswirken.
| Blackwell Ultra | Vera Rubin | Vera Rubin Ultra | Instinct MI355X | Instinct MI450X | |
| Beschleuniger | GB300 | VR200 | VR300 | MI350 | MI450 |
| TGP | 1.400 W | 2.300 W | 3.600 W | 1.400 W | 2.500 W |
| HBM | 288 GB HBM3E | 288 GB HBM4 | 1.024 GB C-HBM4E | 288 GB HBM3E | 432 GB HBM4 |
| Speicherbandbreite | 8 TB/s | 20 TB/s | 32 TB/s | 8 TB/s | 19,6 TB/s |
Ein weiterer Vorteil der Verwendung eines organischen Substrats ist die Verwendung einer größeren Distanz zwischen dem Compute-Chiplet zum Speicher. Dadurch kann die Gesamtzahl der SPHBM4-Stapel und damit die Gesamtspeicherkapazität potenziell erhöht werden.
Aber es dürfte auch Nachteile in der Umsetzung von SPHBM4 geben. So dürften die Latenzen etwas höher sein.
C-HBM4 verlegt den Speichercontroller in den Stack
Mit HBM4 wird allerdings nicht nur das Packaging immer komplexer, sondern auch die Herstellung des HBM selbst. So werden die HBM-Hersteller den kompletten Speicherstapel nicht mehr selbst fertigen können. Die DRAM-Schichten natürlich schon. So wird Micron diese in 1β (1-beta) fertigen. Für HBM3(E) ist die Gleichheit in der Fertigung von DRAM- und Base-Die der Fall.
Mit HBM4 hingegen werden die Speicherhersteller den Base-Die wohl beispielsweise bei TSMC fertigen müssen. Für HBM4 sprach TSMC kürzlich vom N12-Prozess. C-HBM4E wird dann sogar auf N3P gehen können und neben dem physikalischen Speicherinterface soll auch der Speichercontroller in den Base-Die wandern.
| HBM4 | SPHBM4 | C-HBM4(E) | |
| Interface | 2.048 Bit | 512 Bit (4:1-Serialisierung) | 2.048 Bit |
| Bandbreite je Stack | 2 TB/s | 2 TB/s | 3,25+ TB/s |
| Taktrate | 8 - 11 GBit/s | 32 GBit/s | 11 - 13 GBit/s |
| Spannung | VDDQ: 0,7 - 0,9 V VDDC: 1,0 - 1,05 V | VDDQ: 0,7 - 0,9 V VDDC: 1,0 - 1,05 V | VDD: 0,75 V |
| Base-Die-Prozess | N12 | Standard DRAM-Prozess | N3P |
| Substrattyp | Silizium Interposer | Organische Substrate | Silizium Interposer |
| Kanallänge | kurz | lang | kurz |
| Kapazität | 4 - 16 Hi (bis zu 64 GB) | 4 - 16 Hi (bis zu 64 GB) | 4 - 16 Hi (bis zu 64 GB) |
| Energieeffizienz | 1,5x höher als HBM3E | etwas geringer als bei HBM4 | 1,8x höher als HBM3E |