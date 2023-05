NVIDIA kündigt Grace-Hopper-Supercomputer-Block an

Bereits zur Supercomputing-Konferenz ISC in der vergangenen Woche kündigt NVIDIA einen neuen Grace-Supercomputer mit "Grace CPU Superchip" an und verkündete zugleich, dass der Aus- und Aufbau dieser Systeme noch in diesem Jahr beginnen könnte. Die "Grace CPU Superchips" und "Grace Hopper Superchips" sollen eine neue Generation an Supercomputern einläuten – weiterhin unterstützt von den dedizierten Lösungen wie aktuell dem GH100-Beschleuniger.

Mit den DGX-Sytemen sowie den DGX Superpods ermöglicht NVIDIA den modularen Aufbau solcher Systeme, die auf bis zu mehrere tausend GPU skaliert werden können. Neu sind nun die DGX-GH200-Systeme, die "Grace Hopper Superchips" verwenden. Insgesamt besteht ein DGX GH200 aus 256 "Grace Hopper Superchips" und bietet somit 144 TB an Unified Memory, kommt auf insgesamt 128 TB/s an bidirektionaler Bandbreite im gesamten System und verbaut dazu 36 NVLink-Switches. Die Rechenleistung eines DGX GH200 soll bei 1 ExeFLOPS an AI-Leistung liegen.

Die DGX GH200 dienen als Vorlage für AI-Supercomputer, die von den großen Cloud Solution Providern (CSP) eingesetzt werden können. NVIDIA nennt hier Meta, Google und Microsoft. Die DGX-GH200-Systeme sollen gegen Ende des Jahres zur Verfügung stehen. "Grace CPU Superchip" und "Grace Hopper Superchip" werden aktuell in der Massenproduktion gefertigt.

Mit dem GH200-Chip will NVIDIA gewisse Anwendungen weiter beschleunigen, die heute bereits fast ausschließlich auf GPUs ausgeführt werden können. Die Limitierung in der Speicherbandbreite sind aber auch bei NVIDIA in den DGX-H100-Systemen vorhanden - sollen nun mit DGX GH200 nun deutlich beschleunigt werden.

Der GH200-Superchip kann solche Anwendungen noch einmal mindestens doppelt so schnell ausführen, wie ein x86-System mit H100-Beschleuniger.

Neue AI- und HPC-Supercomputer mit NVIDIA-Superchip

Da die Computex in Taipei stattfindet, darf eine lokalpolitische Ankündigung nicht fehlen. Der Taipei-1 ist ein AI-Supercomputer, basierend auf 64 DGX-H100- und ebenso vielen OVX-Systemen. Die Rechenleistung soll bei 2 AI ExaFLOPS liegen. Taipei-1 ist ein System, welches von NVIDIA aufgebaut und betrieben wird. Es soll verschiedenen Forschungseinrichtungen zur Verfügung gestellt werden. Taiwania-4 hingegen basiert auf "Grace CPU Superchips" und soll eine Rechenleistung von 300 TFLOPS an HPC-Rechenleistung bieten.

Mit Hilfe einer MGX-Referenzarchitektur sollen die Hardware-Hersteller in die Lage versetzt werden, schneller und flexibler auf Veränderungen in der Server-Architektur reagieren zu können. GPU, Grace CPUs und DPUs von NVIDIA kommen hier in verschiedenen Konfigurationen zum Einsatz – ausgelegt auf den jeweiligen Anwendungsbereich, den der Anbieter für seine Kunden sieht.

Einmal mehr betont NVIDIA die Wichtigkeit einer schnellen Netzwerk-Infrastruktur. Durch die Übernahme von Mellanox hat man die Expertise In-House und erweitert die Produktpalette mit den Spectrum-X-Netzwerkswitches. Spectrum-X beschreibt die Zusammenarbeit aus Spectrum-4-Ethernet-Switches (64x 800G- oder 128x 400G-Ports für eine aggregierte Bandbreite von 51,2 TB/s.

Weitere (kleine) Neuigkeiten

Neben den Vorstellungen neuer HPC- und AI-Hardware sowie einiger dazugehöriger Systeme stellt NVIDIA auch NVIDIA ACE vor.

Bei NVIDIA ACE handelt es sich um eine AI-unterstützte Plattform für Game-Designer, die NeMo- und Omniverse-Komponenten enthält. Dabei geht es nicht nur darum Charaktere oder 3D-Elemente zu generieren, sondern darum die Welt oder Szene per AI zum Leben zu erwecken. In einem Beispiel wurden dem Charakter nur gewisse Wesenszüge und ein Thema vorgegeben, der Rest der Unterhaltung wurde per ChatGPT erzeugt.

Die Nachfolge-Architektur bzw. die dazugehörigen Chips "Hopper Next" sollen (wenig überraschend) im kommenden Jahr erscheinen. Hopper (GH100) befindet sich seit Oktober 2022 in Produktion, "Hopper Next" soll ein Jahr später folgen.