Werbung

Nur wenige Monate vor der eigenen Hausmesse GTC nutzt NVIDIA die CES nicht nur für eine Reihe an Neuigkeiten für die GeForce-Kundschaft (unter anderem DLSS 4.5 und Dynamic Multi Frame Generation), sondern auch, um weitere Details zur kommenden Vera-Rubin-Plattform zu verraten. Diese soll in der zweiten Jahreshälfte 2026 die aktuelle Blackwell-Generation ablösen und die KI-Berechnungen im Bereich des Trainings und Inferencing um ein Vielfaches beschleunigen.

Doch zunächst einmal überraschte NVIDIA mit der Ankündigung, in der Vera-Rubin-Plattform für die Racklösungen nun doch wieder die GPU-Packages zu zählen und nicht die einzelnen Chips. Aus Vera Rubin NVL144 wird demnach wieder Vera Rubin NVL72 und die von der Blackwell-Plattform bekannte Zählweise wird zunächst einmal fortgesetzt.

Darüber hinaus gibt es nun weitere Details zu den einzelnen Komponenten und den Anfang machen wir bei der Vera-CPU.

Gegenüberstellung der ARM-Host-Prozessoren von NVIDIA

Grace Vera Anzahl der Kerne 72 88 Anzahl der Threads 72 176 L2-Cache 1 MB 2 MB L3-Cache 114 MB 162 MB Speicherbandbreite 512 GB/s 1,2 TB/s Speicherkapazität 480 GB LPDDR5X 1,5 TB LPDDR5X SIMD 4x 128b SVE2 6x 128b SVE2 FP8 NVLink-C2C 900 GB/s 1,8 TB/s PCIe/CXL PCIe 5.0 PCIe 6.0 / CXL 3.1

Die Vera-CPU nutzt 88 der von NVIDIA entwickelten Olympus-CPU-Kerne auf Basis eines ARM-Designs. Diese sind nun auch in der Lage, zwei Threads je Kern zu verarbeiten. Zudem stehen jedem Kern mit 2 MB doppelt so viel L2-Cache zur Verfügung. Der L3-Cache wächst mit 162 MB aber nicht im gleichen Maße an, was die Vera-CPU aufgrund des schnellen Speichers jedoch sicherlich verschmerzen kann.

Die Speicherbandbreite des LPDDR5X wird von 512 GB/s auf 1,2 TB/s mehr als verdoppelt. Mit 1,5 TB an Gesamtkapazität fällt diese um den Faktor drei höher aus. Verdoppelt wird der Durchsatz des NVLink-Interconnects. Die Vera-CPUs können sich mit 1,8 TB/s mit den dazugehörigen Rubin-GPUs verbinden. Als Host-CPU ebenfalls wichtig für die Vera-CPUs ist die Unterstützung von PCIe 6.0 und CXL 3.1.

Der Aufbau eines VR200-Systems sieht eine Vera-CPU für zwei Rubin-GPUs vor. Daran angekoppelt sind dann per PCIe 6.0 etwa die Netzwerklösungen, und auch hier zeigt sich die Weiterentwicklung der Hardware.

So wird NVIDIA für die Racklösungen auf BlueField-4-DPUs setzen, die im Vergleich zum Vorgänger BlueField-3 über den doppelten Netzwerk-Durchsatz (800 zu 400 GBit/s) verfügen. Die Anzahl der Kerne wächst von 16x ARM-A78 auf 64x ARM Neoverse V2 und der zur Verfügung stehende Speicher wird von 32 auf 128 GB vervierfacht.

Die Wichtigkeit eines schnellen Netzwerks zeigt sich auch in den Scale-Out- und Scale-Across-Lösungen wie den Spectrum-6 Ethernet-Switches, die per optischer Verbindung im Rack 32x 1,6 TBit/s erreichen können und nach außen hin 512x 200 GBit/s zur Verfügung stellen. In der nächsten Ausbaustufe kommen die Switches auf 409,6 TBit/s für die optische Anbindung und 512x 800 GBit/s.

Rubin-GPU als Kern-Komponente

All das oben Beschriebene ist aber dennoch "nur" das Beiwerk für die Rubin-GPUs, welche das Training und Inferencing übernehmen. In jedem Package sitzen zwei Rubin-GPUs, zusammen mit acht HBM4-Chips. Jedes Rubin-Package kann dabei auf 288 GB an HBM4-Speicher zurückgreifen, die auf eine Speicherbandbreite von 22 TB/s kommen.

Die Rechenleistung stellt sich wie folgt dar:

Gegenüberstellung der KI-Beschleuniger von NVIDIA

Hopper Blackwell Rubin Anzahl der Transistoren (Package) 80 Milliarden 208 Milliarden 336 Milliarden Compute Dies 1 2 2 Fertigung TSMC N4 TSMC N4P - TDP 700 W 1.400 W 2.300 W Speicherkapazität 80 GB HBM3 288 GB HBM3E

288 GB HBM4

Speicherbandbreite 3 TB/s 8 TB/s 22 TB/s NVFP4 Inferencing-Rechenleistung - 10 PFLOPS 50 PFLOPS FP8 Training-Rechenleistung 2 PFLOPS 5 PFLOPS 17,5 PFLOPS FP32-Rechenleistung (Vektor/Matrix) 67 / 495 TFLOPS 80 / 227 TFLOPS 130 / 400 TFLOPS FP32-Rechenleistung (Vektor/Matrix)

34 / 67 TFLOPS 40 / 150 TFLOPS 33 / 200 TFLOPS

Bei der Speicherkapazität kann Vera Rubin gegenüber Blackwell also nicht zulegen und auch AMD wird mit den Instinct-MI455X-Beschleunigern auf 432 GB kommen. Dafür bietet NVIDIA mit 22 TB/s eine höhere Speicherbandbreite.

Deutlich zu erkennen ist auch, dass NVIDIA den Fokus klar auf die Rechenleistung bei niedriger Genauigkeit legt. NVFP4 und FP8 machen einen deutlichen Sprung, während es für FP32- und FP64-Berechnungen eher eine Stagnation oder gar einen Verlust gibt.

Mit der Vera-Rubin-Plattform will NVIDIA neue Spitzenwerte für den Durchsatz an Tokens pro Megawatt und in anderen Metriken setzen. Damit sollen die KI-Systeme deutlich schneller und effizienter werden. Die Komplexität der Systeme über die GPU oder CPU hinaus ist inzwischen aber enorm. NVIDIA entwickelt inzwischen so gut wie alles selbst. Dies schließt auch sämtliche Netzwerklösungen mit ein.

Noch viele weitere Details zur Vera-Rubin-Plattform hat NVIDIA in einem Blog-Post veröffentlicht.