Das Barcelona Supercomputing Center (BSC) entwickelt einen neuen Hybrid-Supercomputer, bei dem zum ersten Mal eine Kombination aus NVIDIAs stromsparenden ARM-basierten Tegra-CPUs in Kombination mit CUDA-GPUs zum Einsatz kommen. Ob es sich dabei schon um die Quad-Core-Tegra-3-Modelle handelt ist allerdings nicht bekannt. Endgültiges Entwicklungsziel des BSC ist, einen Exascale-Supercomputer zu realisieren, der 15- bis 30-mal weniger Energie als heutige Supercomputer verbraucht. Im Rahmen des so genannten EU Mont-Blanc Project werden HPC-Architekturen der nächsten Generation und Exascale-Applikationen entwickelt, die auf...
+ Antworten
Ergebnis 1 bis 18 von 18
- 14.11.11, 17:32 #1[printed]-Redakteur
Tweety
- Registriert seit
- 15.11.2002
- Ort
- www.twitter.com/aschilling
- Beiträge
- 23.958
Neuer Supercomputer mit NVIDIAs ARM-Prozessoren und GPUs
- 14.11.11, 18:42 #2
Mit welcher Rechenleistung (gerne ein bildhafter Vergleich) kommt der denn daher ?
Thinkpad X220 | Server G630T H77 5x HDD @ 33W Idle
- 14.11.11, 22:27 #3
Also Andreas, was ist denn mit dieser Aussage gemeint :einen Exascale-Supercomputer zu realisieren, der 15- bis 30-mal weniger Energie als heutige Supercomputer verbraucht
Produziert der etwa im Betrieb bis zu 29 mal so viel strom, wie von anderen gebraucht wird?COD4 Bolt Sniper Server
217.163.23.41.
Komm und trau dich
:"Und du Mensch, der du erschaffen wurdest nach einem Abbild. Auch du wirst abbilder erschaffen. Mit deiner Händen Glieder und deines Körpers hauch. Mit Gestein und Erde die du bekommen hast.
Bis du ein Abbild schafft, dass gebar jeder Leugnung ist und selbst Abbilder treibt.
Und auch du Mensch wirst durch dieses Abbild zu nichts verdammt, so wie du es mit deinem Erschaffer getan hast." (Kapitel 2. Vers 18:4)
- 14.11.11, 22:32 #4[printed]-Redakteur
Tweety
- Registriert seit
- 15.11.2002
- Ort
- www.twitter.com/aschilling
- Beiträge
- 23.958
Themenstarter
Derzeitige Supercomputer zielen auf Petaflop-Leistung. Exascale-Computing soll noch weiter gehen. Dabei soll der Stromverbrauch aber weiter reduziert werden, eben um die Faktor 15 bis 30.
- 14.11.11, 23:22 #5
Faktor 15 bis 30 heißt mathematisch aber was?
15-30 % oder wie?
Ich kann diese Angabe keinem Zahlensystem zuordnen.
Da 1 den Wert von 100% hat.COD4 Bolt Sniper Server
217.163.23.41.
Komm und trau dich
:"Und du Mensch, der du erschaffen wurdest nach einem Abbild. Auch du wirst abbilder erschaffen. Mit deiner Händen Glieder und deines Körpers hauch. Mit Gestein und Erde die du bekommen hast.
Bis du ein Abbild schafft, dass gebar jeder Leugnung ist und selbst Abbilder treibt.
Und auch du Mensch wirst durch dieses Abbild zu nichts verdammt, so wie du es mit deinem Erschaffer getan hast." (Kapitel 2. Vers 18:4)
- 14.11.11, 23:32 #6[printed]-Redakteur
Tweety
- Registriert seit
- 15.11.2002
- Ort
- www.twitter.com/aschilling
- Beiträge
- 23.958
Themenstarter
Ja, dann sind Faktor 15 bis 30 eben das 15- bis 30-fache. 1 Petaflop um Faktor 15 ergeben 15 Petaflops.
- 14.11.11, 23:36 #7
Na dann ist eben die Flops leistung der Basiswert.
Steht in der News leider etwas unverständlich, dann danke.
PS: Was machst du so spät hier noch? Überstunden?COD4 Bolt Sniper Server
217.163.23.41.
Komm und trau dich
:"Und du Mensch, der du erschaffen wurdest nach einem Abbild. Auch du wirst abbilder erschaffen. Mit deiner Händen Glieder und deines Körpers hauch. Mit Gestein und Erde die du bekommen hast.
Bis du ein Abbild schafft, dass gebar jeder Leugnung ist und selbst Abbilder treibt.
Und auch du Mensch wirst durch dieses Abbild zu nichts verdammt, so wie du es mit deinem Erschaffer getan hast." (Kapitel 2. Vers 18:4)
- 14.11.11, 23:40 #8[printed]-Redakteur
Tweety
- Registriert seit
- 15.11.2002
- Ort
- www.twitter.com/aschilling
- Beiträge
- 23.958
Themenstarter
Das Internet kennt keine Öffnungs- oder Arbeitszeiten. Das werden einige noch lernen müssen
- 14.11.11, 23:52 #9
- 15.11.11, 08:33 #10Stabsgefreiter
- Registriert seit
- 28.03.2008
- Beiträge
- 363
So interessant ich ARM CPUs auch finde, für den Einsatz in HPC Anwendungen sehe ich die Chancen von ARM CPUs eher kritisch.
Man erreicht vielleicht eine extrem hohe theoretische Rechenleistung, aber auch bei XEON oder Opteron Clustern sind heute schon meist Speicheranbindung und Kommunikation zwischen Rechnern oder CPUs begrenzend bezogen auf die Skalierbarkeit. Zumindest wenn man voneinander abhängige Daten zu verarbeiten hat.
Für stumpfe Algorithmen, wie z.B. Passwörter durchprobieren (skaliert linear mit Anzahl der Kerne) mag das alles eine super Lösung sein, komplexere Systeme zu Simulieren, wo öfter mal Gigabytes an Daten im RAM aktualisiert oder verschoben werden sind die Limits aber halt öfter Speicheranbindung und Interconnects wie Infiniband. Und je mehr Recheneinheiten beteiligt sind, destso höher ist der Kommunikations, Speichermanagement und Infrastrukturaufwand.
Eigentlich kann man ganz einfach sagen, es fehlen oft sinvolle Anwendungen die auf mehr als 1000 Kernen gut skalieren.
- 15.11.11, 14:00 #11
- 15.11.11, 16:03 #12Stabsgefreiter
- Registriert seit
- 28.03.2008
- Beiträge
- 363
Die "Hersteller" sitzen teilweise im Büro nebenan, es sind Problemstellungen, die eben nicht so einfach zu parallelisieren sind.
Meist sind es 3 dimensionale Systeme die voeneinander abhängige Daten haben. Um den nächsten Zeitschritt zu berechnen sind eben die Daten des vorherigen nötig und nicht nur die von einem Punkt aus dem System sondern auch von den umliegenden in alle richtungen.
Mit Systemgrößen bis zu mehreren 100GByte. Teilweise ist das Speichermanagement schon recht ausgefeilt, so dass für uninteressante Daten kein Platz benötigt wird um größere Gesamtsysteme simulieren zu können.
Teilweise wird auch komerzielle Software eingesetzt aber auch die skaliert nicht immer gut, je nach Problemstellung halt.
In den seltensten Fällen baut man ja einen großen Cluster um viele kleine voneinander unabhängige Rechnungen durchzuführen. Meist gehts ja um große komplexe Systeme und da gibt es halt Abhängigkeiten.
Immer über die Hersteller zu schimpfen ist einfach, aber selber mal was entwickeln, was bei komplexer Problemstellung bei >64 Kernen noch gut skaliert macht ja auch kaum einer.
- 15.11.11, 17:33 #13
ok da hast du recht server funktionieren noch halbwegs, aber was ist mit den desktops, man muss sich alleine die ssd entwicklung anschauen.
Wieviele Büros verwenden Datenspeicher und Datenbearbeitung, da hätte der Fortschritt voranschreiten können.
- 15.11.11, 18:22 #14
Wobei man sagen muss, das sich die Technik für die Vernetzung der Clusternodes auch immer weiter entwickelt.
Das ganze dürfte denke ich so nahezu 1:1 skalieren. Sprich die Rechenleistung pro Node steigt wohl ähnlich stark wie die Bandbreiten intern. (wenn man gewisse längere Zeiträume betrachtet)
Das Größte Problem bleibt aber wohl die Anzahl der Ausführungseinheiten und die intelligente Aufteilung der Aufgaben auf eben diese. Hier muss wohl die Software ebenso 1:1 mit skalieren, was sie aber wohl nicht tut
PS:
das Bild oben im Artikel scheint älter als die Meldung selbst zu sein, mir ist grad das hier über den Weg gelaufen:
http://www.bsc.es/media/366.jpg
Laut Aufschrift wohl von 2005... Zumindst gleicht die die Verkablung quasi 1:1 was dafür spricht, das es nicht das Bild der neuen Kisten ist
Workstation: 2x Intel Woodcrest Xeon 5160@3560,03MHz (WR) | Tyan Tempest i5000XL | 2x1+2x4GB Kingston Value FB-Dimm DDR2-667 CL5 | PoV GF465@470GTX 1280MB@750/1550MHz@1,1V | Audigy 2 ZS | HPT RocketRaid 2300 | 1x160GB Samsung SATA; 2x320GB WD SATA non Raid; 4x500GB WD RE SATA@Raid5 | Windows 7 Prof. 64Bit
ESX Server: 2x Intel Woodcrest Xeon 5150@2660MHz | Intel S5000PSL SATA | 6x1+2x1GB Samsung/Kingston FB-Dimm DDR2-667 CL5 | Nvidia Quadro NVS 280 | 1x120GB Samsung SATA; 1x1TB Hitatchi SATA | ESXi 4.0.0
Fileserver: 1xPentium 4 3,0GHz | Asus P4C800 Deluxe | 1x512MB Corsair DDR333 CL2 | Asus Geforce 4 TI 4200 64MB | 1x160GB Samsung SATA; 2x160GB Maxtor IDE non Raid; 1x250GB Seagate IDE; 2x320GB WD SATA non Raid; 1x500GB Seagate SATA | Windows Server 2003 R2 32Bit Standard
- 15.11.11, 19:13 #15
Nicht nur ARM wird gefördert Nvidia hat wohl gerade auch ein recht großes Projekt mit Cray und seinen neuen Kepler GPUs am Start
Google ÜbersetzerGeändert von scully1234 (15.11.11 um 19:15 Uhr)
- 15.11.11, 19:49 #16Hauptgefreiter
- Registriert seit
- 09.04.2011
- Beiträge
- 206
Das Problem wurde in den letzten Jahren dadurch umgangen in dem die Hersteller die Knoten in NUMA Systeme umgewandelt haben. Jetzt hat man in so einem Cluster nicht mehr nur die Aufteilung in Knoten sondern auch noch in NUMA Knoten. Der übliche Weg die Kommunikation zwischen den Knoten zu realisieren ist MPI, daß dann physikalisch meist über Infiniband übertragen wird. (IB FDR ist in einigen Testsysteme im Einsatz.)
Mit OpenMP kann man bequem nur auf einem NUMA Knoten rechnen, für das Skalieren über NUMA Knoten hinweg, muß man sich mit der libnuma herumschlagen, das bedeutet einen nicht unerheblichen Mehraufwand.
Es gibt Programme aus der Festkörperphysik oder Quantenchemie, die das hinbekommen.
- 15.11.11, 22:45 #17Stabsgefreiter
- Registriert seit
- 28.03.2008
- Beiträge
- 363
Ich sagte nicht, dass es solche Programme garnicht gibt, es gibt nur eben noch genug Programme die andere Problemstellugnen angenen, die eben nicht so gut
skalieren.
MPI über Infiniband ist eben auch immer mit etwas Aufwand und Kosten für Infrastruktur verbunden. Ein port am IB-switch in einer non-blocking Infrastruktur kostet ab einer gewissen Größe deutlich mehr als so ein paar ARM CPUs.
Vor allem ist oben ja schon erwähnt, dass die über 10GBe kommunizieren sollen.
Meist sind ja eher die Latenzen als die Bandbreite problematisch.
Wenn man den Energieverbrauch wirklich um Faktoren drücken will und CPUs ca. 40% des gesammternergieverbrauchs ausmachen kommt man eh nicht drumherum, auch Infrastruktur neu zu entwickeln. Fest auf Platinen aufgebrachte Interconnects könnten Netzwerkgeräte überflüssig machen. Von so ein paar ARM cpus passen ja doch einige auf eine Platine.
- 16.11.11, 08:57 #18Hauptgefreiter
- Registriert seit
- 09.04.2011
- Beiträge
- 206

LinkBack URL
About LinkBacks


Zitieren

