> > > > Epyc und Vega: AMD packt ein PFLOP pro Sekunde in ein Serverrack

Epyc und Vega: AMD packt ein PFLOP pro Sekunde in ein Serverrack

Veröffentlicht am: von

AMD hat mit den Eypc-Serverprozessoren und Radeon-Instinct-GPU-Beschleunigern zwei sicherlich potente Hardwarekomponenten vorgestellt, die teilweise auch schon im Handel verfügbar sind oder in den kommenden Wochen und Monaten auf den Markt kommen werden. Mit den Epyc-Prozessoren greift AMD den fast schon Alleinherrscher am Servermarkt Intel an und die Radeon-Instinct-Karten sollen gegen NVIDIAs Tesla-Dominanz antreten.

Was eine Kombination aus beiden Komponenten zu leisten im Stande ist, wollte AMD auf dem Capsaicin-Event der Siggprah präsentieren und stellte dazu das Project 47 vor. Dabei handelt es sich um ein einzelnes Serverrack, welches eine Leistung von einem Petaflop pro Sekunde erreichen soll.

Das Project 47 besteht aus 20 2U-Server-Knoten aus dem Hause Inventec, die dort in der P-Serie auch für Endkunden angeboten werden und für AMD als ODM (Original Design Manufacturer) dienen. Bestückt ist jeder Knoten mit einem AMD Epyc 7601 (32 Kerne, 64 Threads, 2,2 bis 3,2 GHz Takt, 64 MB L3-Cache und 180 W TDP) sowie vier AMD Radeon Instinct MI25 (Vega-GPU, 4.096 Shadereinheiten, 16 GB HBM2, 2.048 Bit Speicherinterface, 484 GB/s Speicherbandbreite, 24,6 TFLOPS FP16-Leistung, 12,3 TFLOPS FP32-Leistung, 768 GFLOPS FP64-Leistung und 300 W TDP). Die GPU-Beschleuniger sind alleine schon ausreichend, um bei FP32-Rechenleistung von 1 PFLOPS zu kommen, die Prozessoren dienen als Infrastruktur der Datenaufbereitung für die GPU-Beschleuniger.

Die weitere Ausstattung eines Servers besteht aus 512 GB DDR4-Arbeitsspeicher, einer NVMe-SSD und einer InfiniBand-EDR-Karte zur Anbindung der Server untereinander. Ein entsprechender InfiniBand-Switch gehört zur Ausstattung des Racks.

Um die Rechenleistung eines Racks in ein Verhältnis zu setzen: Die derzeitige Nummer eines der Supercomputer Sunway TaihuLight kommt auf etwa 94 PFLOPS und würde somit 94 Racks benötigen. Viel größer ist der chinesische Supercomputer aber auch nicht, setzt allerdings auf hochspezialisierte Hardware. Immerhin könnte man die alte Nummer eins Tianhe-2 mit 33 PFLOPS auf entsprechend 33 Racks packen, was einem geringeren Platzbedarf als beim Original entsprechen würde.

AMD geht es aber mehr darum zu zeigen, dass eine solch hohe Rechenleistung auch flexibel eingesetzt werden kann und zudem noch sparsam ist. Theoretisch können auf jeder GPU bis zu 16 Nutzer in einer virtuellen Umgebung arbeiten. Bei 80 GPUs in einem Rack entspräche dies 1.280 virtuellen Nutzern.

Neben dieser Flexibilität der Nutzung spielt aber auch der Stromverbrauch eine Rolle. Laut AMD verbraucht das Project 47 unter Volllast 30 GFLOPS/W an. Die angesprochene Nummer eins der Top500-Supercomputer kommt auf nur 6 GFLOPS/W. Schaut man sich die effizienten Supercomputer an, sprechen wir hier von 14 GFLOPS/W, allerdings FP64, was keine Domäne der aktuellen AMD-Hardware ist. Insofern ist dies alles immer eine Frage der jeweiligen Anwendung und Anforderung.

Wir haben einmal ein Video der Demos auf der Siggraph zusammengestellt, welches die Anwendungen in etwa verdeutlichen könnte.

Außerdem aufgenommen haben wir ein paar Demos, welche die Radeon Pro WX 9100 und Radeon Pro SSG in Aktion zeigen.