Gestern kündigte NVIDIA mit der Single-Server-Lösung GB200 NVL4 eine weitere Variante des GB200-Compute-Moduls an. GB200 NVL4 besteht aus zwei Grace-CPUs und vier Blackwell-GPUs. Bereits zur Computex vorgestellt wurde die Variante GB200 NVL2 mit jeweils zwei Grace-GPUs und zwei Blackwell-GPUs sowie die kompletten Rack-Lösungen GB200 NVL36 und GB200 NVL72. Die Zahl hinter der Bezeichnung "NVL" gibt an, wie viele GPUs in einer NVLink-Domain zusammenarbeiten.

Kollegen Patrick Kennedy von ServeTheHome berichteten nun davon, dass es auf der Ausstellungsfläche der Supercomputing 24 offensichtlich kurzfristige Änderungen der OEMs gegeben habe. So sind offensichtlich Ausstellungen der Racks auf Basis des GB200-NVL36×2-Designs nicht mehr geplant. Bereits Anfang Oktober berichtete Lieferketten-Analyst 郭明錤 (Ming-Chi Kuo) davon, dass NVIDIA die Entwicklung des GB200-NVL36×2-Designs gestoppt habe.

Bisher hat sich NVIDIA nicht offiziell zum Thema geäußert. Kurzfristige Änderungen am Produktangebot in der Form sind aber sicherlich eher ungewöhnlich – vor allem wenn sie die Ausstellungsfläche einer Messe betreffen. Die Nachfrage der Kunden am GB200-NVL36×2-Design sei laut Kennedy, der dies durch Aussagen der OEMs bestätigt sieht.

Im Angebot verbleiben GB200 NVL36 und GB200 NVL72 als Single-Rack-Lösung. Erst vor wenigen Tagen kam die vermutlich schon etwas ältere Meldung zu Tage, NVIDIA haben zusammen mit den OEMs einige Schwierigkeiten gehabt ein NVL72-Rack ausreichend kühlen zu können. Immerhin sprechen wir hier von einer Leistungsaufnahme von 120 kW pro Rack. Bei der GB200 NVL36 dürfte es in etwa die Hälfte sein.

GB200 NVL36×2 verteilt die Rechenleistung des GB200-NVL72-Designs auf zwei Racks. Das Interesse der Kunden an dieser Lösung war aber offenbar dennoch nicht besonders hoch. Einerseits stellen die GB200-NVL72-Racks wegen der Leistungsaufnahme, Kühlung und des Gewichts enorme Herausforderungen an die Infrastruktur eines Rechenzentrums. Andererseits aber müssen Kunden für ein GB200-NVL72-Design ohnehin ein eigene Rechenzentrums-Infrastruktur aufbauen. Da scheint es sich zu lohnen direkt auf GB200 NVL72 anstatt GB200 NVL36×2 zu gehen.

Sollte sich die Einstellung des GB200-NVL36×2-Designs bestätigen, wäre dies eine weitere Kerbe in der nicht ganz planmäßigen Einführung der Blackwell-GPUs. Im August wurde bekannt, dass es bei der Blackwell-GPU zu einem Designfehler gekommen war, der dazu führte, dass die Ausbeute der Chips extrem schlecht war. Gemeinsam mit TSMC hat NVIDIA dieses Problem beheben können, allerdings wurden neue Masken zur Belichtung benötigt und so verzögerte sich der Start der finalen Version.

Seit Mitte Oktober liefert NVIDIA die ersten Blackwell-Systeme an seine Großkunden wie OpenAI, Microsoft und Google – darunter auch GB200 NVL72. Mit der Massenproduktion des extrem komplexen auf aufwändigen Racks wird nun aber erst in der ersten Jahreshälfte 2025 gerechnet.