Werbung
Für das Jahr 2030 arbeitet das RIKEN, das naturwissenschaftliche Forschungsinstitut in Japan und Kurzform von Rikagaku Kenkyūjo, am Nachfolger des Supercomputers Fugaku. Einige Details des bisher als FugakuNEXT bezeichneten Systems, gibt es bereits. So hat Fujitsu Ende 2024 über den Aufbau und das Design des Monaka getauften ARM-Chips gesprochen. Dabei handelt es sich um einen Design-Prototypen, der als Monaka-X dann als finales Design im FugakuNEXT zum Einsatz kommen soll.
Auf der ISC (International Supercomputing Conference) in Hamburg erwähnt Fujitsu im Juni dieses Jahres zudem die Verwendung von NVIDIAs NVLink-Fusion-Technik, sodass die Monaka-X-Chips direkt mit den KI-Beschleunigern von NVIDIA sprechen, bzw. diese als Host-Chips eingesetzt werden können. Die A64FX-Prozessoren des Fugaku-Supercomputers verwendet ausschließlich die eigenen CPU-Kerne.
Heute haben das RIKEN und NVIDIA diese Zusammenarbeit in offizieller Form bekannt gegeben. Fujitsu und NVIDIA werden auf Seiten der Hardware zusammenarbeiten. In welchem Verhältnis die Monaka-X-Prozessoren und GPUs von NVIDIA für FugakuNEXT zusammenarbeiten werden, ist aber ebenso unbekannt wie die GPU-Architektur, die zum Einsatz kommen wird. Bisher hat NVIDIA seine Roadmap nur bis zur Feynman-Architektur im Jahre 2028 offengelegt.
Während wir also zum Design, der Architektur und dem Aufbau des Monaka-X bereits vergleichsweise viel wissen, bleibt das, was NVIDIA konkret beisteuern wird, wohl noch einige Zeit im Dunkeln. Aber das, das wir aktuell als Monaka kennen, wird für Monaka-X vermutlich noch einige Anpassungen erfahren. Die primäre Entwicklungsphase von Monaka-X und FugakuNEXT soll bis zum 27. Februar 2026 dauern. Erst dann wird das finale Design zurechtgezurrt.
Das RIKEN projiziert bereits einige Leistungsziele für FugakuNEXT. So soll der Supercomputer eine Rechenleistung von 2,6 EFLOPS für FP64-Berechnungen erreichen. Das aktuell schnellste System El Capitan kommt auf 1,742 EFLOPS in dieser Metrik. Gegenüber den 442 PFLOPS von Fugaku bedeutet dies dennoch eine Steigerung um den Faktor sechs. Allerdings ging Fugaku bereits 2020 in Betrieb und in den zehn Jahren bis FugakuNEXT dann 2030 loslegen soll, ist die Entwicklung in der Hardware weiter vorangeschritten, als es die angestrebten 2,6 EFLOPS vermuten lassen. Die reine FP64-Rechenleistung ist längst jedoch nicht mehr der Fokus dieser Systeme. Ein Detail am Rande: FugakuNEXT soll genau wie sein Vorgänger in etwa 40 MW verbrauchen dürfen.
In den Anwendungen, die auf FugakuNEXT ausgeführt werden sollen, will das RIKEN eine Steigerung um den Faktor 100 erreichen. Dazu sind Optimierungen in verschiedenen Bereichen vorgesehen, nicht nur der Hardware selbst. So wissen wir, dass im Bereich der KI-Anwendungen die Software eine große Rolle spielt. In den vergangenen Jahren haben wir Leistungssteigerungen im Bereich von 20 bis 30 % allein durch Optimierungen im Softwarestack gesehen – bei gleicher Hardwarebasis. Das RIKEN will ausgehen von 2020 und Fugaku mit solchen Optimierungen in der Software ein Leistungsplus von 20x erreichen. Neben der Optimierung von Modellen sollen die Mixed-Precision-Rechenleistung sowie die Emulation von FP64-Berechnungen (Ozaki-Schema) eine große Rolle spielen.
Das Ozaki-Schema ist ein Algorithmus, der hochpräzise Matrix-Matrix-Multiplikationen durch Zerlegung in mehrere Operationen mit geringerer Genauigkeit realisiert. Dabei wird das Eingabematrix-Element in Mantissen-Anteile aufgespalten und separat multipliziert, sodass sich durch Summation der Teilergebnisse eine höhere numerische Präzision ergibt. Obwohl dieser Ansatz erheblich mehr FLOPs als eine konventionelle DGEMM-Implementierung mit WMAA- oder MFMA-Instruktionen erfordert, kann so dennoch ein effektiver FP64-Durchsatz bereitgestellt werden.
KI-Hardware ist nicht auf einen bestimmten Datentyp festgelegt. Die Forschung an Training und Inferencing mit immer kleineren Datentypen – ohne dass dabei die Genauigkeit verloren geht – schreitet stetig voran. Das RIKEN rechnet damit, dass in diesem Bereich zwischen 2020 und 2030 ein Faktor 300 an Leistungssteigerung möglich ist.
Ein weiteres zentrales Element in der Entwickung des FugakuNEXT ist die enge Zusammenarbeit zwischen Systemdesign und Anwendungsentwicklung, die mithilfe von Methoden wie CI/CD/CB (Continuous Integration/Continuous Deployment/Continuous Benchmarking) erfolgen soll.
Hierfür arbeitet das RIKEN gemeinsam mit dem US-Energieministerium (DOE) im Rahmen eines offiziellen Abkommens zwischen dem japanischen Bildungs- und Wissenschaftsministerium (MEXT) und dem DOE. Diese Kooperation dient dazu, eine kontinuierliche Leistungsbewertung des Systems zu ermöglichen. Ein wichtiger Baustein ist dabei die automatisierte Benchmarking-Plattform "Benchpark", die genutzt wird, um fortlaufend Leistungsdaten zu erfassen und zu analysieren.
Es soll demnach eine engere Abstimmung zwischen der Hardware-Entwicklung für FugakuNEXT und der Nutzerebene geben. Aktuell wird an vielerlei Stellen untersucht, wie hochpräzise Simulationen und KI-basierte Mustererkennung und prädiktive Modellierung zusammengebracht werden können, um die Modelle noch genauer und leistungsstärker zu machen.
Darüber hinaus gewinnt die Integration von HPC mit Quantencomputern (QC) zunehmend an Bedeutung. Das RIKEN erwartet eine engere Verzahnung zwischen dem Quanten-Computing und HPC für 2030. Entsprechend soll daran gearbeitet werden, die Software-Stacks so anzupassen, dass sie auch in FugakuNEXT genutzt werden können, um eine hybride QC-HPC-Umgebung aufzubauen.