> > > > China bei den Supercomputern mit eigener Custom-CPU weiterhin an der Spitze

China bei den Supercomputern mit eigener Custom-CPU weiterhin an der Spitze

Veröffentlicht am: von

top500Pünktlich zum Start der ISC 2016 in Frankfurt/Main wird eine neue Liste der Top500-Supercomputer vorgestellt. Dabei könnte das Motto heißen: Der König ist tot, es lebe der König, denn der schnellste Supercomputer steht weiterhin in China, hört nun aber auf den Namen Sunway TaihuLight. Dabei hat sich die theoretische Rechenleistung des neuen Spitzenreiters im Vergleich zum alten fast verdreifacht.

Auf nunmehr 93.014,6 TFLOPs im Linpack-Benchmarks schafft es der Sunway TaihuLight und die theoretisch zu erreichende kurzzeitige Rechenleistung liegt sogar bei 125.435,9 TFLOPs. Zum Vergleich: Der Tianhe-2 kommt auf 33.862,7 bzw. 54.902,4 TFLOPs in diesen beiden Kategorien. Erreicht wird diese Rechenleistung auch durch eine Eigenentwicklung bei den Prozessoren, denn diese stammen nicht aus dem Hause Intel, sondern wurden für Sunway TaihuLight unter dem Namen ShenWei komplett selbst vom National Research Center of Parallel Computer Engineering & Technology (NRCPC) entwickelt.

Der genauer als SW26010 entwickelte Prozessor besitzt 260 Kerne und kommt als einzelner Chip auf eine Rechenleistung von 3 TFLOPS. Insgesamt besteht Sunway TaihuLight aus 40.960 Knoten, die jeweils mit einem SW26010 bestückt sind. Bei 260 Kernen pro Knoten kommen wir also auf 10.649.600 Rechenkerne insgesamt. Mit der besagten Rechenleistung vom 3 TFLOPS pro Chip liegt der SW26010 auf gleichem Niveau wie der aktuelle Xeon-Phi-Beschleuniger auf Basis von Knights Landing – allerdings schafft dieser 3 TFLOPS bei doppelter Genauigkeit, während die SW26010 dies nur bei einfacher erreichen.

Laut dem NRCPC ist die Entwicklung des neuen Prozessors vor allem dem Umstand geschuldet, dass die USA seit dem April 2015 die Ausfuhr solcher Prozessoren wie dem Xeon Phi nach China untersagt hat, da man befürchtet, dass diese zur Entwicklung neuer Atomwaffen verwendet würden. Außerdem wollte man der Konkurrenz aus China kleine Blaupausen für die Entwicklung eines neues Prozessors liefern. Der bisher schnellste Supercomputer, der Tianhe-2 ist noch mit Xeon Phi 31S1P bestückt. Für diesen war auch ein Update mit den neuen Xeon Phi Knights Landing vorgesehen, welches aufgrund des Ausfuhrverbotes aber gestoppt werden musste. Tianhe-2 hätte damit vor Sunway TaihuLight bereits die 100-PFLOP-Grenze erreicht.

Sunway TaihuLight - Neuer Spitzenreiter in der Top500 der Supercomputer
Sunway TaihuLight - Neuer Spitzenreiter in der Top500 der Supercomputer

Der SW26010 Prozessor verwendet in seinen 260 Kernen ein Derivat der DEC-Alpha-Architektur. Es handelt sich um einen 64-Bit-RISC-Prozessor mit SIMD-Support und Out-of-Order-Executions. Die 260 Kerne sind in vier Gruppen zu jeweils 65 Kernen aufgeteilt. Diese bestehen aus 64 Computing Processing Elements (CPE) und einem Management Processing Element (MPE). Jede dieser vier Gruppen hat ihren eigenen Speichercontroller mit einer Bandbreite von 34,125 GB/s, sodass der Prozessor insgesamt auf 136,5 GB/s kommt. Hinsichtlich der Speicherausstattung ist die Rede von 32 GB pro Knoten, sodass der Supercomputer auf insgesamt 1,3 PB kommt. Eingesetzt wird ein DDR3-Speicher unbekannter Geschwindigkeit.

Der Takt des Prozessors liegt bei 1,45 GHz und pro Kern kann nur ein Single-Execution-Thread ausgeführt werden. Hinsichtlich des Caches ist nur von 12 KB Instruction-Cache die Rede. Hinzu kommen 64 KB des sogenannten Scratchpad. Dieser kann als L1-Cache verstanden werden, aber neben dem Arbeitsspeicher ist der SW26010 auch bei den Caches und Registern nur mäßig bestückt – für die jeweiligen Anforderungen scheint dies aber mehr als ausreichend zu sein. Über den Fertigungsprozess des Prozessors macht das NRCPC keine Angaben.

Für einen Supercomputer ist auch der Interconnect, also die Verbindung zwischen den Knoten entscheidend. Auch hier wird eine eigene Entwicklung verwendet, die offenbar auf PCI-Express 3.0 basiert. Die Bandbreite von Knoten zu Knoten soll bei 16 GB/s liegen. Wird die Kommunikation per MPI verwendet, verringert sich die Bandbreite auf 12 GB/s. Damit liegt der Interconnect des TaihuLight auf Niveau von InfiniBand oder 100G-Ethernet.

Die Leistungsaufnahme des Sunway TaihuLight beträgt 15,3 MW im Linpack-Benchmark. Damit verbraucht er sogar weniger als der Tianhe-2 mit 17,8 MW und das bei fast dreifacher Leistung. Bei einem Verhältnis von 6 GFLOPS/W schafft es der TaihuLight sogar auf den 2. Platz der noch nicht aktualisierten Liste der Green500.

Der Sunway TaihuLight wird im National Supercomputing Center in Wuxi, etwa zwei Autostunden von Shanghai entfernt, dazu verwendet Klimadaten und Wettermodelle zu berechnen. Auch die Materialforschung soll durch den neuen Supercomputer in China profitieren.