> > > > Neuer Supercomputer mit NVIDIAs ARM-Prozessoren und GPUs

Neuer Supercomputer mit NVIDIAs ARM-Prozessoren und GPUs

DruckenE-Mail
Erstellt am: von
nvidia

Das Barcelona Supercomputing Center (BSC) entwickelt einen neuen Hybrid-Supercomputer, bei dem zum ersten Mal eine Kombination aus NVIDIAs stromsparenden ARM-basierten Tegra-CPUs in Kombination mit CUDA-GPUs zum Einsatz kommen. Ob es sich dabei schon um die Quad-Core-Tegra-3-Modelle handelt ist allerdings nicht bekannt. Endgültiges Entwicklungsziel des BSC ist, einen Exascale-Supercomputer zu realisieren, der 15- bis 30-mal weniger Energie als heutige Supercomputer verbraucht. Im Rahmen des so genannten EU Mont-Blanc Project werden HPC-Architekturen der nächsten Generation und Exascale-Applikationen entwickelt, die auf solchen energieeffizienten Lösungen ablauffähig sind. Erst kürzlich hat ARM seine neue ARMv8-Architektur vorgestellt, die auch 64-Bit-Befehlssätze ausführen kann. Hersteller wie AppliedMicro haben bereits Prozessoren angekündigt, die über bis zu 128 Kerne verfügen.

bsc-barcelona

"In heutigen Systemen verbrauchen CPUs den Löwenanteil an Energie, oft 40 Prozent oder mehr", betont Alex Ramirez, Leiter des Mont-Blanc-Projektes. "Im Vergleich dazu basiert die Mont-Blanc-Architektur auf energieeffizienten Rechenbeschleunigern und ARM-Prozessoren, die in Embedded-Systemen und mobilen Geräten genutzt werden, um eine 4- bis 10-fache Verbesserung der Energieeffizienz bis 2014 zu erreichen."

Weiterführende Links:

Social Links

Ihre Bewertung

Ø Bewertungen: 0

Tags

es liegen noch keine Tags vor.

Kommentare (17)

#8
customavatars/avatar19920_1.gif
Registriert seit: 24.02.2005

Moderator
Luft statt Wasser
Beiträge: 22532
Zitat Chezzard;17895271
PS: Was machst du so spät hier noch? Überstunden?


Wenn man sein Hobby zum Beruf macht, hat man kein Hobby mehr. Da sind leider die Grenzen fließend.. ;)
#9
So interessant ich ARM CPUs auch finde, für den Einsatz in HPC Anwendungen sehe ich die Chancen von ARM CPUs eher kritisch.
Man erreicht vielleicht eine extrem hohe theoretische Rechenleistung, aber auch bei XEON oder Opteron Clustern sind heute schon meist Speicheranbindung und Kommunikation zwischen Rechnern oder CPUs begrenzend bezogen auf die Skalierbarkeit. Zumindest wenn man voneinander abhängige Daten zu verarbeiten hat.
Für stumpfe Algorithmen, wie z.B. Passwörter durchprobieren (skaliert linear mit Anzahl der Kerne) mag das alles eine super Lösung sein, komplexere Systeme zu Simulieren, wo öfter mal Gigabytes an Daten im RAM aktualisiert oder verschoben werden sind die Limits aber halt öfter Speicheranbindung und Interconnects wie Infiniband. Und je mehr Recheneinheiten beteiligt sind, destso höher ist der Kommunikations, Speichermanagement und Infrastrukturaufwand.

Eigentlich kann man ganz einfach sagen, es fehlen oft sinvolle Anwendungen die auf mehr als 1000 Kernen gut skalieren.
#10
customavatars/avatar64398_1.gif
Registriert seit: 21.05.2007
Wien
Kapitän zur See
Beiträge: 3410
Zitat [email protected];17895936
So interessant ich ARM CPUs auch finde, für den Einsatz in HPC Anwendungen sehe ich die Chancen von ARM CPUs eher kritisch.
Man erreicht vielleicht eine extrem hohe theoretische Rechenleistung, aber auch bei XEON oder Opteron Clustern sind heute schon meist Speicheranbindung und Kommunikation zwischen Rechnern oder CPUs begrenzend bezogen auf die Skalierbarkeit. Zumindest wenn man voneinander abhängige Daten zu verarbeiten hat.
Für stumpfe Algorithmen, wie z.B. Passwörter durchprobieren (skaliert linear mit Anzahl der Kerne) mag das alles eine super Lösung sein, komplexere Systeme zu Simulieren, wo öfter mal Gigabytes an Daten im RAM aktualisiert oder verschoben werden sind die Limits aber halt öfter Speicheranbindung und Interconnects wie Infiniband. Und je mehr Recheneinheiten beteiligt sind, destso höher ist der Kommunikations, Speichermanagement und Infrastrukturaufwand.

Eigentlich kann man ganz einfach sagen, es fehlen oft sinvolle Anwendungen die auf mehr als 1000 Kernen gut skalieren.


Man kann nicht den Weg in die Vergangenheit gehen!

Multithreaded muss kommen. Wenn ihr wisst das die Hersteller unfug machen müsst ihr es ihnen mitteilen!
#11
Die "Hersteller" sitzen teilweise im Büro nebenan, es sind Problemstellungen, die eben nicht so einfach zu parallelisieren sind.
Meist sind es 3 dimensionale Systeme die voeneinander abhängige Daten haben. Um den nächsten Zeitschritt zu berechnen sind eben die Daten des vorherigen nötig und nicht nur die von einem Punkt aus dem System sondern auch von den umliegenden in alle richtungen.
Mit Systemgrößen bis zu mehreren 100GByte. Teilweise ist das Speichermanagement schon recht ausgefeilt, so dass für uninteressante Daten kein Platz benötigt wird um größere Gesamtsysteme simulieren zu können.

Teilweise wird auch komerzielle Software eingesetzt aber auch die skaliert nicht immer gut, je nach Problemstellung halt.
In den seltensten Fällen baut man ja einen großen Cluster um viele kleine voneinander unabhängige Rechnungen durchzuführen. Meist gehts ja um große komplexe Systeme und da gibt es halt Abhängigkeiten.

Immer über die Hersteller zu schimpfen ist einfach, aber selber mal was entwickeln, was bei komplexer Problemstellung bei >64 Kernen noch gut skaliert macht ja auch kaum einer.
#12
customavatars/avatar64398_1.gif
Registriert seit: 21.05.2007
Wien
Kapitän zur See
Beiträge: 3410
ok da hast du recht server funktionieren noch halbwegs, aber was ist mit den desktops, man muss sich alleine die ssd entwicklung anschauen.

Wieviele Büros verwenden Datenspeicher und Datenbearbeitung, da hätte der Fortschritt voranschreiten können.
#13
customavatars/avatar44491_1.gif
Registriert seit: 08.08.2006
Weinböhla (Sachsen)
Moderator
Beiträge: 31938
Zitat [email protected];17898188
Teilweise wird auch komerzielle Software eingesetzt aber auch die skaliert nicht immer gut, je nach Problemstellung halt.
In den seltensten Fällen baut man ja einen großen Cluster um viele kleine voneinander unabhängige Rechnungen durchzuführen. Meist gehts ja um große komplexe Systeme und da gibt es halt Abhängigkeiten.


Wobei man sagen muss, das sich die Technik für die Vernetzung der Clusternodes auch immer weiter entwickelt.
Das ganze dürfte denke ich so nahezu 1:1 skalieren. Sprich die Rechenleistung pro Node steigt wohl ähnlich stark wie die Bandbreiten intern. (wenn man gewisse längere Zeiträume betrachtet)

Das Größte Problem bleibt aber wohl die Anzahl der Ausführungseinheiten und die intelligente Aufteilung der Aufgaben auf eben diese. Hier muss wohl die Software ebenso 1:1 mit skalieren, was sie aber wohl nicht tut ;)


PS:
das Bild oben im Artikel scheint älter als die Meldung selbst zu sein, mir ist grad das hier über den Weg gelaufen:
http://www.bsc.es/media/366.jpg
Laut Aufschrift wohl von 2005... Zumindst gleicht die die Verkablung quasi 1:1 was dafür spricht, das es nicht das Bild der neuen Kisten ist :fresse:
#14
customavatars/avatar83107_1.gif
Registriert seit: 21.01.2008
Thüringen
Banned
Beiträge: 16333
Nicht nur ARM wird gefördert Nvidia hat wohl gerade auch ein recht großes Projekt mit Cray und seinen neuen Kepler GPUs am Start

Google Übersetzer
#15
Registriert seit: 09.04.2011

Leutnant zur See
Beiträge: 1101
Zitat [email protected];17895936

Man erreicht vielleicht eine extrem hohe theoretische Rechenleistung, aber auch bei XEON oder Opteron Clustern sind heute schon meist Speicheranbindung und Kommunikation zwischen Rechnern oder CPUs begrenzend bezogen auf die Skalierbarkeit.

Das Problem wurde in den letzten Jahren dadurch umgangen in dem die Hersteller die Knoten in NUMA Systeme umgewandelt haben. Jetzt hat man in so einem Cluster nicht mehr nur die Aufteilung in Knoten sondern auch noch in NUMA Knoten. Der übliche Weg die Kommunikation zwischen den Knoten zu realisieren ist MPI, daß dann physikalisch meist über Infiniband übertragen wird. (IB FDR ist in einigen Testsysteme im Einsatz.)

Mit OpenMP kann man bequem nur auf einem NUMA Knoten rechnen, für das Skalieren über NUMA Knoten hinweg, muß man sich mit der libnuma herumschlagen, das bedeutet einen nicht unerheblichen Mehraufwand.

Zitat [email protected];17895936

Eigentlich kann man ganz einfach sagen, es fehlen oft sinvolle Anwendungen die auf mehr als 1000 Kernen gut skalieren.

Es gibt Programme aus der Festkörperphysik oder Quantenchemie, die das hinbekommen.
#16
Ich sagte nicht, dass es solche Programme garnicht gibt, es gibt nur eben noch genug Programme die andere Problemstellugnen angenen, die eben nicht so gut
skalieren.

MPI über Infiniband ist eben auch immer mit etwas Aufwand und Kosten für Infrastruktur verbunden. Ein port am IB-switch in einer non-blocking Infrastruktur kostet ab einer gewissen Größe deutlich mehr als so ein paar ARM CPUs.
Vor allem ist oben ja schon erwähnt, dass die über 10GBe kommunizieren sollen.
Meist sind ja eher die Latenzen als die Bandbreite problematisch.

Wenn man den Energieverbrauch wirklich um Faktoren drücken will und CPUs ca. 40% des gesammternergieverbrauchs ausmachen kommt man eh nicht drumherum, auch Infrastruktur neu zu entwickeln. Fest auf Platinen aufgebrachte Interconnects könnten Netzwerkgeräte überflüssig machen. Von so ein paar ARM cpus passen ja doch einige auf eine Platine.
#17
Registriert seit: 09.04.2011

Leutnant zur See
Beiträge: 1101
Zitat [email protected];17900794

Wenn man den Energieverbrauch wirklich um Faktoren drücken will und CPUs ca. 40% des gesammternergieverbrauchs ausmachen kommt man eh nicht drumherum, auch Infrastruktur neu zu entwickeln.

Das gibt es schon: IBM BlueGene. Und die Dinger sind in der neusten Version Energie effizienter als GPGPU Systeme.
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

Core i7-6950X im Test: Dicker Motor, alte Karosse

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/6950X/6950X-LOGO

Intels letzter CPU-Launch ist schon eine Weile her - Ende Oktober 2015 testeten wir den Xeon E5-1230v5 auf Skylake-Basis, seitdem war zumindest im Desktop-Bereich nichts neues mehr vom Marktführer zu hören. Am heutigen Tag aktualisiert Intel endlich die High-End-Plattform und bringt mit dem Core... [mehr]

So schnell ist Kaby Lake: Erste eigene Benchmarks zum i7-7500U

Logo von IMAGES/STORIES/REVIEW_TEASER/INTEL_KABY_LAKE

Offiziell vorgestellt hat Intel die 7. Generation der Core-Prozessoren bereits Ende August, doch erst jetzt ist Kaby Lake in Form des ersten Notebooks verfüg- und damit testbar. Dabei handelt es sich um das Medion Akoya S3409 MD60226, in dem ein Core i7-7500U verbaut wird. Während das Notebook... [mehr]

Intel 'Kaby Lake': Die siebte Core-Generation im Detail vorgestellt

Logo von IMAGES/STORIES/LOGOS-2016/INTEL_7TH_CORE_GEN

Im Zuge der kommenden "Kaby Lake"-Plattform, deren breite Verfügbarkeit für das erste Quartal 2017 erwartet wird, nutzt Intel heute die Gelegenheit, die siebte Core-Generation offiziell im Detail vorzustellen und bereits ein paar Prozessoren auf den Markt zu bringen. Wir konnten uns bereits vor... [mehr]

Delid Die Mate im Test

Logo von IMAGES/STORIES/IMAGES/STORIES/GALLERIES/REVIEWS/2016/DDM/DDM

Seit der Ivy-Bridge-Generation verlötet Intel Die und Heatspreader nicht mehr miteinander, was leider in deutlich schlechteren Kern-Temperaturen resultiert. Abhilfe dagegen schafft nur das Delidding (das sogenannte „Köpfen“) der CPU sowie der anschließende Austausch der Wärmeleitpaste durch... [mehr]

Intel Core i7-7700K (Kaby Lake) nun ebenfalls in Benchmark gesichtet

Logo von IMAGES/STORIES/LOGOS-2015/INTEL3

Mittlerweile sind die ersten Benchmarks zum kommenden Intel Core i7-7700K (Kaby Lake) aufgetaucht und ergänzen damit die Werte zum Core i7-7500U. Die Ergebnisse wirken durchaus sehr glaubhaft, denn sie sind in der offiziellen Datenbank von Geekbench 4 zu finden. Getestet wurde der neue Prozessor... [mehr]

AMD nennt architektonische Details zu Zen - Summit Ridge mit Broadwell-E...

Logo von IMAGES/STORIES/LOGOS-2016/AMD-ZEN

Alle Journalisten, die von Intel auf das IDF eingeladen wurden, bekamen von AMD eine Einladung für ein eigenes Event im Hotel gegenüber. Also machte sich der Tross auf den Weg, um in einer Pressekonferenz neue Details über AMDs kommende Zen-Architektur und die Prozessoren zu erfahren. Erstmals... [mehr]