Aktuelles
  • Wartungsarbeiten in der Nacht ab 1 Uhr
    Es werden heute Nacht kleine Wartungsarbeiten durchgeführt. Die Downtime wird etwa 15 Minuten lang sein.

Der schnellste Supercomputer steht ab sofort in Japan

Thread Starter
Mitglied seit
06.03.2017
Beiträge
3.017
Derzeit konzentriert sich in der Berichterstattung über die Supercomputer auf die zukünftigen Exascale-Systeme, die ab 2021/22 mit einer Rechenleistung von einem EFLOPS (ExaFLOPS). Aurora und El Capitan heißen die Systeme, die von Intel und AMD ausgestattet werden. Nun vermeldet das Forschungsinstitut RIKEN in Japan die finalen Daten zum Supercomputer Fugaku.
... weiterlesen
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.

Pirate85

Urgestein, Kackbratze
Mitglied seit
17.02.2009
Beiträge
18.666
Ort
Sachsen, Naunhof b. Leipzig
System
Desktop System
2020_Q1
Laptop
Huawei MateBook D 14 W00D (Ryzen 5, RX Vega 8) [TIM durch Kryonaut ersetzt]
Details zu meinem Desktop
Prozessor
AMD R7 3700X [IHS geschliffen, IFF: 1800Mhz ]
Mainboard
Gigabyte X570 I Aorus Pro WIFI
Kühler
Noctua NH-L9i [geschliffen] + AM4 Kit
Speicher
Crucial Ballistix 2*16Gb DDR4 3600 CL16
Grafikprozessor
Sapphire AMD RX 5700 XT Referenzkarte
Display
LG 27GL850-B 2560x1440 @144Hz
SSD
System: Corsair MP600 500Gb M.2 | Progs: Samsung 960 Pro 2Tb M.2 | Daten: Samsung 850 Evo 4Tb SATA
HDD
3x Ext. 2,5" 4Tb HDD
Opt. Laufwerk
Ext. DVD/BR Brenner
Soundkarte
USB, Sennheiser GSX 1000
Gehäuse
Dan Cases A4 v3 Black [3M Riser vom V1 für PCIe 4.0]
Netzteil
Corsair SF450 Platinum
Keyboard
Logitech G213
Mouse
Logitech MX518 2019 Edition
Betriebssystem
Win10 Pro 64bit
Webbrowser
Chrome
Sonstiges
Sound: Edifier R1280DB, Logitech G Pro (2. Generation)
"A64FX" Das erste was mir dazu in den Kopf kam war der Athlon 64 FX von 2003. :fresse2:

Was die Ingenieure sich bei der Namensgebung gedacht haben?
 

Infi88

Experte
Mitglied seit
09.09.2010
Beiträge
847
Ort
Köln
"A64FX" Das erste was mir dazu in den Kopf kam war der Athlon 64 FX von 2003. :fresse2:

Was die Ingenieure sich bei der Namensgebung gedacht haben?
Viel, der Fujitsu A64FX beinhaltet auch den TOFU-Controller aka Tofu D Interface aka Tofu Interconnect. Mich würde mal interessieren wie schwer das tatsächlich zu machen ist, im Prinzip ist es nur ein ARM Kernmonster zugepackt mit Cache und HBM2 :o.
 

smalM

Enthusiast
Mitglied seit
30.04.2008
Beiträge
1.368
Ort
Civitas Tautensium, Agri Decumates

hRy

Experte
Mitglied seit
09.09.2011
Beiträge
123
System
Details zu meinem Desktop
Prozessor
AMD Ryzen 9 3900X
Mainboard
Asus Prime X370 Pro
Kühler
BeQuite Silent Loop 240
Speicher
G.Skill Trident Z RGB 3600MHz 18/22/22/42/1T 2*8GB
Grafikprozessor
Sapphire RX 5700 XT Nitro+ Special Edition
Display
AOC U2868PQU UHD@60Hz
SSD
Crucial MX100 512 GB; Crucial MX300 525 GB
HDD
Diverse
Soundkarte
SoundBlaster Recon 3D
Gehäuse
Zalman MS1000-HS2
Netzteil
BeQuite Dark Power Pro 9 550W
Keyboard
Logitech G15
Mouse
Logitech G402
Betriebssystem
Windows 10 Pro
Webbrowser
Mozilla Firefox
Sonstiges
Sennheiser PC350
Die Spitzenrechenleistung eines einzelnen Prozessors liegt bei 3,3792 TFLOPS (FP64), 6,7584 TFLOPS (FP32) und 13,5168 TFLOPS (FP16)
Der 3990X hat "nur" 3,2TFLOPS FP64.

Ich finde es interessant das eine CPU ausschließlich für diesen Supercomputer entwickelt wird? Vielleicht diente diese CPU auch als Sprungbrett für weitere Forschungen auf dem Gebiet.
Japan ist wohl dabei sich unabhängiger zu machen.
 

Infi88

Experte
Mitglied seit
09.09.2010
Beiträge
847
Ort
Köln
"nur" :sneaky:
Daß es ausschließlich CPUs sind ist doch gerade der Witz daran!
Die erste Server CPU in 10nm war doch der Centriq 2400 von Qualcomm, auch ein ARM 48 Kern Design, was soll daran witzig sein ? Der A64FX sieht relativ Simpel aus vom Aufbau eigentlich das wollte ich damit sagen.
 

cunhell

Enthusiast
Mitglied seit
18.02.2007
Beiträge
114
....., was soll daran witzig sein ? Der A64FX sieht relativ Simpel aus vom Aufbau eigentlich das wollte ich damit sagen.
Der Witz ist, dass Du bei einem HPC-System welches nur CPUs ( ARM, x64, IA64, etc..) verwendet, bei Deinem Programmcode nicht auf die Einschränkungen und Besonderheiten von den Beschleunigerkarten Rücksicht nehmen musst. Man vereinfacht damit auch die Programmierung und Optimierung des Codes auf bestmögliche Performance und Skalierung.
Außerdem sind nicht alle Fragestellungen für HPC-Systeme mit Beschleunigerkarten geeignet und man verliert die Performance der Beschleunigerkarten, wenn man das dann auf solchen Systemen rechnen will/muss.

Cunhell
 

mkossmann

Semiprofi
Mitglied seit
04.01.2017
Beiträge
26
im Prinzip ist es nur ein ARM Kernmonster zugepackt mit Cache und HBM2
Die Rechenleistung wird im wesentlichen aber von den SVE-Einheiten erbracht, die bisher bei keinen anderen ARM Prozessoren vorhanden sind.
Der Witz ist, dass Du bei einem HPC-System welches nur CPUs ( ARM, x64, IA64, etc..) verwendet, bei Deinem Programmcode nicht auf die Einschränkungen und Besonderheiten von den Beschleunigerkarten Rücksicht nehmen musst
Hier muss der Programmcode für die SVE-Einheiten optimiert werden.
 

Infi88

Experte
Mitglied seit
09.09.2010
Beiträge
847
Ort
Köln
Die Rechenleistung wird im wesentlichen aber von den SVE-Einheiten erbracht, die bisher bei keinen anderen ARM Prozessoren vorhanden sind.

Hier muss der Programmcode für die SVE-Einheiten optimiert werden.
Ich sehe den Clou. Fujitsu plant das aber nicht in der Masse oder, sieht nämlich auf dem Papier ziemlich effizient aus ?
 

DragonTear

Enthusiast
Mitglied seit
06.02.2014
Beiträge
13.166
Ort
Im sonnigen Süden
Die Rechenleistung wird im wesentlichen aber von den SVE-Einheiten erbracht, die bisher bei keinen anderen ARM Prozessoren vorhanden sind.

Hier muss der Programmcode für die SVE-Einheiten optimiert werden.
Richtig und damit ist das jetzt auch kein Wunderwerk im Vergleich zu GPU-basierten Systemen mehr denn für SVE musst du ebenso dafür sorgen dass der Algorithmus möglichst viele gleichartige Rechnungen gleichzeitig ausführt.
 

cunhell

Enthusiast
Mitglied seit
18.02.2007
Beiträge
114
Natürlich muss der Code für den Befehlssatz der CPU geschrieben und optimiert werden. Das habe ich ja geschrieben. Man muss z.B. auch Rücksicht auf die unterschiedlichen Intel-Prozessorgenerationen und deren Eigenheiten nehmen, um die höchstmögliche Performance zu erhalten.
Aber ich muss nicht zusätzlich den Code für die Beschleunigerkarten wie die von Nvidia oder AMD anpassen. Und der Code läuft erst mal auf jeder ARM-CPU, die den Befehlssatz unterstützt, was die Erstellung des Codes dem Nutzer vereinfacht. Außerdem kann ich mit einer CPU-Only Konfiguration eine sehr viel größere Bandbreite an Fragestellungen abdecken, als mit einer Kombination aus CPU und Beschleunigerkarte.
Das Rechner, welche Beschleunigerkarten verwenden, in manchen Fragestellungen performanter sind steht außer Zweifel. Darum gibt es die Karten ja ;-)
Aber das hat halt auch seine Nachteile. Einfach ein paar Beschleunigerkarten hinzufügen und alles wird gut, ist halt nicht.
Genau darum gibt es ja die CPU-Only Rechner.

Cunhell
 
Mitglied seit
14.02.2020
Beiträge
8
(..)
Aber ich muss nicht zusätzlich den Code für die Beschleunigerkarten wie die von Nvidia oder AMD anpassen. Und der Code läuft erst mal auf jeder ARM-CPU, die den Befehlssatz unterstützt, was die Erstellung des Codes dem Nutzer vereinfacht. Außerdem kann ich mit einer CPU-Only Konfiguration eine sehr viel größere Bandbreite an Fragestellungen abdecken, als mit einer Kombination aus CPU und Beschleunigerkarte.
Das Rechner, welche Beschleunigerkarten verwenden, in manchen Fragestellungen performanter sind steht außer Zweifel. Darum gibt es die Karten ja ;-)
Aber das hat halt auch seine Nachteile. Einfach ein paar Beschleunigerkarten hinzufügen und alles wird gut, ist halt nicht.
Genau darum gibt es ja die CPU-Only Rechner. (..)
Ja und nein aus meiner Sicht.

Wir haben drei Codes, die jeweils bis zu 40k+ CPU Kernen skalieren und aus meiner Erfahrung mit diesen Codes und so wie ich das Feld derzeit auf dem Sprung hin zur Exascale-Aera betrachte wird mehr und mehr Abstraktion in die Compiler geschoben. Intel OneAPI ist da so ein Versuch, doch am Donnerstag hat NVIDIA auch das HPC-SDK angekuendigt mit Standardcompilern, die die Standardsprache i.e. C++, FORTRAN auf GPUs optimieren. So ist zumindenst das Versprechen.

In den naechsten Wochen sollten die Codes zum ersten Mal mit den NVIDIA Compilern getestet werden - also Mal schauen.

Wenn es wirklich ueber die Compiler geht sehe ich qualitativ keinen grossen Unterschied zwischen den Ansaetzen (CPU only, CPU+GPU). Am Ende des Tages sind die numerischen Algorithmen an sich auch der begrenzende Faktor und nicht die zu Grunde liegende Architektur.

Die CPU only Rechner werden denke ich in den naechsten 5-10 Jahren aus der Supercomputing Arena verschwinden und sich auf das Level der Universitaetscluster reduzieren.
 

mkossmann

Semiprofi
Mitglied seit
04.01.2017
Beiträge
26
Und der Code läuft erst mal auf jeder ARM-CPU, die den Befehlssatz unterstützt,
Es gibt aber derzeit wohl nur genau eine ARM CPU mit SVE.
Die CPU only Rechner werden denke ich in den naechsten 5-10 Jahren aus der Supercomputing Arena verschwinden und sich auf das Level der Universitaetscluster reduzieren.
Gibt es überhaupt noch Supercomputer, wo die Rechenleistung in wesentlichen von einer universellen CPU erbracht wird und nicht von spezialisierten, im CPU-Die integrierten AVX/SVE Einheiten? Der Vorteil einer GPU Lösung ist m. E. das man das Verhältnis zwischen Vektorleistung (GPU) und universeller Rechenleistung (CPU) je nach Anwendungsfall etwas variieren kann. Bei einer CPU-only Lösung ist man da festgenagelt.
 
Mitglied seit
14.02.2020
Beiträge
8
(..)
Gibt es überhaupt noch Supercomputer, wo die Rechenleistung in wesentlichen von einer universellen CPU erbracht wird und nicht von spezialisierten, im CPU-Die integrierten AVX/SVE Einheiten? Der Vorteil einer GPU Lösung ist m. E. das man das Verhältnis zwischen Vektorleistung (GPU) und universeller Rechenleistung (CPU) je nach Anwendungsfall etwas variieren kann. Bei einer CPU-only Lösung ist man da festgenagelt.
Gibt noch eine ganze Reihe an CPU-only Rechnern. So zur Zeit zum Beispiel HAWK und SuperMUC-NG, wobei man hier argumentieren kann, dass beide CPUs auch AVX Einheiten haben. Das Problem sind bei all diesen Supercomputer Konfigurationen immer eher die Nutzer und ihre Codes. Die US Superrechner haben extrem viel Geld fuer ihre Codes und das Feintuning auf die jeweiligen Architekturen, waehrend im Europaeischen Raum die Forschungscode eher historisch wachsen und deswegen mehr Hilfe bei solchen Umstellungen brauchen (Was daher konservative Kaeufer auch dazu anregt eher eine klassische CPU-only Maschine, wie z.B. SuperMUC-NG zu kaufen um die Nutzer vor nicht allzu grosse Umstellungsprobleme zu stellen.)
 
Oben Unten