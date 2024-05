Werbung

Aufgrund einer hohen Sonnenaktivität konnten in den vergangenen Nächten auch in unseren Breiten Polarlichter (Aurora) beobachtet werden. Ob dies ein Zeichen für das Prestigeprojekt in der Zusammenarbeit der nationalen Laboratorien in den USA und Intel werden sollte? Das Prestigeobjekt von Intel in Form des Supercomputer Aurora hat jedoch längst einige Kratzer bekommen. Ursprünglich mit Xeon-Phi-Beschleunigern geplant, musste Aurora schon mehrfach und über Jahre hinweg verschoben werden.

Im vergangenen Jahr reichte es mit der Hälfte der Rechenknoten für Platz zwei in der Top500-Liste der Supercomputer. Entsprechend wurde nun erwartet, dass Aurora für die nächste Liste nicht nur vollständig installiert sein wird (was inzwischen der Fall ist), sondern auch auf allen Rechenknoten für den Benchmark verwendet werden kann.

Doch dem ist leider nicht so. Auch für die Juni-Liste der Top500 der Supercomputer reicht es wieder nur für Platz zwei und das obwohl inzwischen etwa 87 % des Systems für den Benchmark verwendet werden konnten. 1.012 PFLOPS an Rechenleistung reichen eben nicht, um Frontier mit seinen 1.194 PFLOPS von Thron zu stoßen. Immerhin hat man nun die Exascale-Marke erreicht.

89 % der Rechenknoten konnten für den HPL-MxP-Benchmark verwendet werden, der die AI-Rechenleistung abbilden soll. Mit 10,6 EFLOPS proklamieren Intel und das Argonne National Laboratory hier den ersten Platz für sich.

Die weiteren Platzierungen sind Platz drei im HPCG, wenngleich hier nur 38,5 % der Rechenknoten verwendet wurden. Im Graph500 soll es zu Platz fünf gereicht haben.

Zeitgleich mit dieser Meldung wird die komplette Top500-Liste für den Juni 2024 veröffentlicht. Diese werde entsprechend aufbereitet und darin werden einige weitere Details zu Aurora, wie zum Beispiel der Stromverbrauch, enthalten sein. Klar ist einmal mehr, dass Aurora die an das System gestellten Erwartungen nicht ganz erfüllen kann – zumindest im Hinblick auf den für die Top500-Liste relevanten Benchmark. Konkurrent AMD verbleibt mit Frontier auf Platz eins.

Das Argonne National Laboratory, Intel und HPE haben in einem Briefing zu den jüngsten Ergebnissen verlauten lassen, dass Aurora durchaus den ersten Platz erreichen kann, es dazu aber noch weitere Optimierungen benötige. Theoretisch soll Aurora eine maximale Rechenleistung von 2 EFLOPS erreichen können. Dies entspricht aber nur der theoretischen Rechenleistung aller verbauten Komponenten. In der Praxis kann keines der Systeme den theoretischen Maximalwert erreichen. Das Frontier-System hat eine theoretisch maximale Rechenleistung von etwa 1,7 EFLOPS vorzuweisen, kommt im Benchmark jedoch "nur" auf besagte 1,2 EFLOPS.

Die Top 10 der Supercomputer System Rmax Hardware Leistungsaufnahme Effizienz (1) Frontier 1.206 PFLOPS AMD EPYC 3. Gen

AMD Instinct MI250X 22,8 MW 52,6 GFLOPS/W (2) Aurora 1.012 PFLOPS Intel Xeon Max 9470

Intel GPU Max 1550 38,7 MW 26,1 GFLOPS/W (3) Eagle 561 PFLOPS Intel Xeon Platinum 8480

NVIDIA H100 - - (4) Fugaku 442 PFLOPS Fujitsu A64FX 29,9 MW 14,8 GFLOPS/W (5) LUMI 380 PFLOPS AMD EPYC 3. Gen

AMD Instinct MI250X 7,1 MW 53,4 GFLOPS/W (6) Alps 270 PFLOPS NVIDIA GH200 5,2 MW 51,9 GFLOPS/W (7) Leonardo 241 PFLOPS Intel Xeon Platinum 835

NVIDIA A100

7,4 MW 32,2 GFLOPS/W (8) MareNostrum 5 ACC 175 PFLOPS Intel Xeon Platinum 8460Y

NVIDIA H100 2,6 MW 54,0 GFLOPS/W (9) Summit 149 PFLOPS IBM Power9

NVIDIA Volta GV100

10,1 MW 14,7 GFLOPS/W (10) EOS 121 PFLOPS Intel Xeon Platinum 8480C

NVIDIA H100

- -

Komplexe Technik, komplexe Herausforderungen

Der Aufbau eines Supercomputers ist nicht nur logistisch eine gigantische Herausforderung, sondern auch in vielen technischen Aspekten, denn ein Computersystem bestehend aus 10.624 Rechenknoten muss in der Vorbereitung der Daten, dem Netzwerk und in vielen weiteren Aspekten ständig optimiert und angepasst werden, damit es die möglichst ideale Rechenleistung abrufen kann.

Aurora war bereits Ende 2023 vollständig installiert. In der vorherigen Top500-Liste reicht es mit rund der Hälfte der Rechenknoten für Platz zwei. Sicherlich hatte man erwartet, dass Aurora die Spitzenposition nun wird übernehmen können. Dieses Ziel wurde jedoch nicht erreicht. Noch immer können nicht alle Rechenknoten gleichzeitig verwendet werden, um den HPLinpack-Benchmark auszuführen. Wie wichtig dies nun in der Praxis ist, steht auf einem anderen Blatt, denn solche Supercomputer werden häufig für verschiedene Projekte und Rechenaufgaben aufgeteilt und arbeiten nicht immer als komplettes System. In der Außendarstellung ist es aber sicherlich nicht ideal, dass man die Spitzenposition nun wieder verfehlt hat.

Dies entsprechend zu gewichten, ist aber wichtig und es gibt auch technische Gründe, warum Aurora in der Top500-Liste schlechter dasteht, als man dies erwarten würde. Während AMD bei der in Frontier verwendeten Hardware auf Matrix-Beschleuniger für den HPLinpack-Benchmark zurückgreifen kann, ist dies bei Aurora nicht möglich. Laut dem Argonne National Laboratory können nur die wenigsten HPC-Anwendungen davon in der Praxis profitieren, so dass dieser vermeintliche Vorteil für Frontier in der Praxis kaum eine Rolle spielt. Für Aurora und die Wahl der Hardware sei es eine bewusste Entscheidung gewesen, auf diese Hardwareeinheiten zu verzichten. Man benötigt sie in den alltäglichen Anwendungen des Supercomputers nicht.

Dennoch ist es kein gutes Bild, welches Aurora als Prestigeprojekt für Intel abgibt. Die vertraglich festgeschriebenen Leistungswerte wird man letztendlich wohl erreichen, für Intel aber dürfte es ein kostspieliges Unterfangen gewesen sein. Die beiden wichtigsten Hardwarekomponenten in Form der Xeon-Prozessoren mit HBM-Speicher und der GPU-Beschleuniger haben sich in ihrer Entwicklungsrichtung als Sackgasse erwiesen.

Ein Blick auf Aurora

Ausgestattet ist Aurora mit Prozessoren aus der Xeon-CPU-Max-Serie auf Basis des Sapphire-Rapids-Designs, die mit HBM2e-Speicher ausgestattet sind, sowie den Data-Center-GPUs Max 1550 alias Ponte Vecchio. Pro Node kommen zwei Prozessoren und vier GPUs zum Einsatz. Insgesamt wird Aurora über 10.624 Nodes und somit 21.248 Prozessoren und 63.744 GPUs verfügen. Zum Vergleich: Der aktuelle Spitzenreiter und das erste Exascale-System Frontier kommt auf 9.472 EPYC-Prozessoren und 37.888 GPUs.

Die weiteren Daten von Aurora lauten 2,21 PB/s an Spitzendatenübertragung über den Fabric-Interconnect sowie das Vorhandensein von 1,36 PB an HBM2e-Speicher bei den Prozessoren, 8,16 PB an HBM2e-Speicher bei den GPUs sowie 10,9 PB an DDR5-Speicherkapazität. Theoretisch sind alle Prozessoren und GPUs in der Lage, über ihren HBM2e-Speicher eine Bandbreite von 30,5, bzw. 208,9 PB/s zu erreichen. Dies sind jedoch nur theoretisch Zahlen.

Wir hatten vor zwei Jahren die Gelegenheit, Borealis – das Testsystem für Aurora – bei Intel zu besichtigen. Borealis besteht aus 128 Nodes und war anfangs nicht mit den Prozessoren aus der Xeon-CPU-Max-Serie bestückt, sondern mit solchen ohne HBM2e-Speicher. Im Artikel werfen wir einen ausführlichen Blick auf die Art und Weise wie Intel und das Argonne National Laboratory sich auf den Aufbau von Aurora vorbereitet haben. Neben dem Borealis-System bei Intel gab es das baugleiche Sunspot-System, welches für die Hochrechnungen der Leistung verwendet wurde.