Werbung
NVIDIA nutzte die Keynote der GTC, um seine Roadmap zu aktualisieren – genauer gesagt, in einzelnen Aspekten etwas genauer auszuführen. Aktuell befinden sich Blackwell und Blackwell Ultra in full production. Die großen Stückzahlen dieser Systeme werden in den kommenden Monaten ausgeliefert und werden dann noch einige Zeit verfügbar sein.
Die Rubin-Generation wird ab Ende 2026 verfügbar sein. Hersteller für Rechenzentrums-Hardware gehen davon aus, dass es im vierten Quartal so weit sein wird. NVIDIA selbst liefert bereits erste Bring-Up- und Testsysteme an die Hyperscaler. Gemeinsam mit Rubin eingeführt werden die Groq-3-LPUs (LP30), Vera-CPU, BlueField-4-DPUs sowie ein Scale-up- und Scale-Out-Netzwerk auf Basis von NVLink 6 und ConnectX-8. Rubin setzt auf zwei GPUs gemeinsam mit 288 GB an HBM4 in einem Package.
Für Rubin Ultra wird NVIDIA dann vier GPUs in ein Package verpflanzen. Hinzu kommt HBM4E. Gemeinsam mit Rubin Ultra wird es dann die nächste Groq-LPU namens LP35 geben. Die Netzwerke und Interconnects machen den Schritt auf NVLink 7 und ConnectX-9.
Ab 2028 wird dann die Feynman-Generation Einzug halten. Feynman wird in vielen Aspekten auf neue Fertigungs- und Packaging-Technologien setzen. So sprach NVIDIA von einem GPU-Die-Stacking. Wie genau die verbrauchsstarken und entsprechend zu kühlenden Chips gestapelt werden sollen, bleibt allerdings offen. Mit Feynmen erfolgt auch der Wechsel auf Custom-HBM4.
Gemeinsam mit Feynman eingeführt werden LP40, also eine Groq-LPU mit NVLink-Anbindung sowie die Rose-CPU. Benannt ist diese nach Rosalind Franklin.
| Fertigung | weitere Details | |
| Blackwell-(Ultra)-GPU | TSMC N3P | Dual-GPU-Design, 208 Milliarden Transistoren, HBM3E |
| Grace-CPU | TSMC 4N | 72 Kerne, 480 GB LPDDR5X |
| Rubin-GPU | TSMC N3P | Dual-GPU-Design, 336 Milliarden Transistoren, HBM4 |
| Vera-CPU | TSMC N3P | 88 Kerne, 1,5 TB LPDDR5X |
| Groq 3 LPU | Samsung SF4X | 500 MB SRAM, Inferencing-Spezialisierung |
| Rubin-Ultra-GPU | - | Quad-GPU-Design, HBM4E |
| Groq 4 (LP35) | - | NVFP4-Spezialisierung, Inferencing-Spezialisierung |
| Feynman-GPU | - | GPU-Die-Stacking, C-HBM4 |
| Rosa-CPU | - | - |
| Groq 5 (LP40) | - | NVLink-Interconnect, Inferencing-Spezialisierung |
Oberon und Kyber
Bereits seit der Blackwell-Generation ist nicht mehr nur von wenigen KI-Beschleunigern die Rede, die zusammenarbeiten, sondern die größten bestehen aus gleich ganzen Racks. Diesen Trend hat auch AMD erkannt und wird in diesem Jahr mit dem Helios-Rack versuchen, dem Branchenprimus auf die Pelle zu rücken. Entsprechend hat NVIDIA Referenzdesigns ein Referenzdesign namens Oberon entwickelt.
Bisher skaliert Oberon in den NVL72-Systemen auf bis zu 72 CPU-Packages. Dabei spielt es keinerlei Rolle, wie viele GPUs je Package zusammengefasst werden. Verbunden sind alle GPUs via Direktverbindungen und NVLink über ein sogenanntes Rückgrat (Spine) aus Kupferverbindungen.
Über ein Rack hinaus sind Kupferverbindungen dann nicht mehr möglich und NVIDIA wird auf optische Verbindungen setzen. Das Scale-Across-Netzwerk via Lichtwellenleiter versetzt NVIDIA in die Lage, mehrere Racks nebeneinander zu platzieren und dennoch alle GPUs in einer Domain zusammenzufassen. Aktuell arbeitet man an NVL576-Racklösungen, bei denen acht Racks zusammengefasst werden.
Für die Rubin-CPX- und Groq-3-LPX-Erweiterungen gibt es die Oberon-Racks als ETL256-Version, wobei hier dann nicht die Rubin-Packages gezählt werden, sondern eben die Rubin-CPX- und Groq-3-LPU-Chips.
Mit Rubin wird es dann die Option für das Kyber-Rack geben. In einem Kyber-Rack sitzen die Compute-Blades nicht mehr horizontal, sondern vertikal im Rack. Dies gilt auch für die NVLink-Switch-Blades. Anstatt eines Spines aus einzelnen Verbindungen wird es eine Midplane geben, die aus einem festen PCB mit den entsprechenden Steckverbindungen besteht. Dieses Modul sitzt rückseitig im Rack und verbindet alle Blades miteinander.
In einem Kyber-Rack wird es dann möglich sein, 144 Rubin- und Rubin-Ultra-Packages zusammenzufassen. Es soll aber weiterhin die Möglichkeit bestehen, die Rubin-Generation in einem Oberon-Rack zu verbauen – dann allerdings mit nur 72 GPU-Packages, die direkt miteinander verbunden sind.
Via Scale-Across und optischen Verbindungen kommt Kyber als NVL1152 ebenfalls auf einen deutlich größeren Ausbau. Auch die Feynman-Generation wird es in einem Oberon-Rack geben, allerdings wird die Option des Scale-Across via optischer Verbindungen wegfallen.