IDF 2014: Intel stellt Xeon-E5-v3-Familie vor

Andi [HWLUXX] · 08.09.2014

<img src="/images/stories/logos-2013/idf2014.jpg" alt="idf2014" style="margin: 10px; float: left;" height="100" width="100" />Zum Start des IDF hat Intel heute seine neue Xeon E5-v3-Produktfamilie angekündigt. Die neuen Prozessoren Xeon E5-2600/1600 v3 sind für den Einsatz in rechenintensiven Umfeldern und Datacentern gedacht und sollen gegenüber der Vorgänger-Generation eine bis um den Faktor 3 gesteigerte Leistung bieten. Darüber hinaus hat Intel weiter die Effizienz verbessert und die Sicherheitsfeatures optimiert – so sollen den immer weiter steigenden Ansprüchen in der Cloud Rechnung getragen werden. 
Die verschiedenen „pools" der IT verschieben sich deutlich durch die Zugang zur Cloud. Entsprechend setz Intel bei der neuen Plattform auf Software Defined... <a href="/index.php/news/hardware/prozessoren/32599-idf-2014-intel-stellt-xeon-e5-v3-familie-vor.html" style="font-weight:bold;">... weiterlesen</a>

Geht dich nichts an · 08.09.2014

Fragt sich, ob es welche mit offenem Multi gibt...

K-one · 08.09.2014

Ich glaube nicht dass wir Xeons mit freien Multis sehen werden und ich hab auch noch nicht von einem Xeon mit nem freiem Multiplikator gehört.

Das wird in diesem Bereich von den Cpu´s eh nicht gefordert und wer solche Cpu´s hochschrauben will, der muss da halt dann auf eine andere Weise ran als nur über den Multi.

tjalf · 08.09.2014

K-one schrieb:
Ich glaube nicht dass wir Xeons mit freien Multis sehen werden und ich hab auch noch nicht von einem Xeon mit nem freiem Multiplikator gehört.

Das wird in diesem Bereich von den Cpu´s eh nicht gefordert und wer solche Cpu´s hochschrauben will, der muss da halt dann auf eine andere Weise ran als nur über den Multi.

Hast Du dich je mit Xeon CPUs beschäftigt? Die E5-2xxxW v1 hatten einen offenen Multi und die "meisten" E5-v2 auch (weiss nicht ob es auch Modelle ohne gibt.)

NasaGTR · 08.09.2014

Geht dich nichts an schrieb:
Fragt sich, ob es welche mit offenem Multi gibt...

Xeons mit freiem Multi kA, aber mit geeigneten Z99 Boards z.B. von ASUS kann man die BCLK gewaltig nach oben treiben!

https://www.youtube.com/watch?v=khDsbxa5_G0&list=UUXuqSBlHAE6Xw-yeJA0Tunw

Hier taktet LinusTechTips einen E5-2697 v2 nur mit BCLK um 13% (113MHz) nach oben, und das bei einem 12 Kerner!!!
Das Ding wird Kühlung ohne Ende brauchen! xD

emperator · 09.09.2014

tjalf schrieb:
Hast Du dich je mit Xeon CPUs beschäftigt? Die E5-2xxxW v1 hatten einen offenen Multi und die "meisten" E5-v2 auch (weiss nicht ob es auch Modelle ohne gibt.)

Das bezweifle ich ganz stark! Sonst wäre das EVGA SR-X nicht so ein Flop geworden, wenn es Dual-Socket fähigen ungelockte Xeons gegeben hätte.
Die einzige Sandy Bridge-EP/Ive-Bridge-EP Xeons mit offenen Multis waren die E5-1650/E5-1650v2/E5-1660/E5-1660v2.

Chiller3333 · 09.09.2014

Ich sage nur Skulltrail, das waren noch Zeiten

Tonmann · 09.09.2014

tjalf schrieb:
Hast Du dich je mit Xeon CPUs beschäftigt? Die E5-2xxxW v1 hatten einen offenen Multi und die "meisten" E5-v2 auch (weiss nicht ob es auch Modelle ohne gibt.)

Ich denke die Frage sollte man eher dir stellen?
Ich hatte einige Xeons unter den Fingern und die letzten mir bekannten Xeons für Dual CPU Anwendungen mit offenem Multi liefen noch auf Sockel 1366/ EVGA SR-2 (von E-Samples abgesehen!)
Wie emperator schon schreibt: Das EVGA SR-x wäre wohl kaum so gefloppt wenn es auch nur einen E5 2xxw mit offenem Multi gegeben hätte :hmm:

Morpheus2200 · 09.09.2014

Sind ja eine ganze Menge unterschiedlicher Modelle.
Ist nicht ganz einfach sich da zu entscheiden. Ich denke was da real an performance herumkommt wird auch ein bisschen vom turbo verhalten abhängen.
Das die bei AVX Workloads den Takt teilweise erheblich senken macht mir ein bisschen Sorgen. Ist das der TDP geschuldet?
Abzuschätzen was man da je nach Anwendung an performance zwischen den einzelnen Modellen gewinnt wird glaube ich deutlich schwieriger als bei der Vorgängergeneration. Zumindest für hpc Anwendungen.

jdl · 09.09.2014

Fr@ddy schrieb:
Das die bei AVX Workloads den Takt teilweise erheblich senken macht mir ein bisschen Sorgen. Ist das der TDP geschuldet?

Wenn die Xeon E5 bzw. E5v2 AVX Code verarbeiten steigt der Stromverbrauch stark an. Wenn man dazu noch den AllCore Turbo dauerhaft aktiviert steigt der Stromverbrauch drastisch an und die Systeme werden sehr warm. Insofern kann ich nachvollziehen, daß Intel die Turbostufen für den AVX2 Mode etwas verringert hat. Viel ist es ja nicht.

Wann welche CPU die optimale Performance herausholt, hängt nun noch mehr vom Programmcode ab. Eine generelle Aussage läßt sich nicht treffen. Ziemlich wahrscheinlich wird der 18Core nicht das Preisoptimum sein.

Morpheus2200 · 09.09.2014

Laut Heise.de sind nicht nur die turbostufen verringert. Der E5-2699 v3 soll bei AVX code nur noch mit 1.9GHz anstelle von 2.3GHz getaktet sein. Das sind mal eben 20% unter base clock. Ich finde das ist schon ein erheblicher Unterschied. Das bei code der die AVX einheiten benutzt deutlich mehr Wärme entsteht ist ja nicht wirklich neu, aber einerseits so viele Cores auf ein die zu klatschen und das dann unter laste nicht mehr Kühlen oder versorgen zu können und daher den Takt zu drosseln finde ich schon ein bisschen daneben.
Bei manchen codes gewinne ich mit AVX flags keine 20% Leistung weil ein großer Teil eben nicht Vektoroperationen sind. Sehen Entwickler und Tester dann, dass solcher code ohne vektorisierung auf der Hardware schneller läuft? Oder ist das vielleicht noch von der Temperatur abhängig? Da spielen auf einmal mehr Faktoren mit, das wird gerade bei parallelisierter Software irgendwann unübersichtlich und schlechter vergleichbar.

tjalf · 09.09.2014

Tonmann schrieb:
Ich denke die Frage sollte man eher dir stellen?
Ich hatte einige Xeons unter den Fingern und die letzten mir bekannten Xeons für Dual CPU Anwendungen mit offenem Multi liefen noch auf Sockel 1366/ EVGA SR-2 (von E-Samples abgesehen!)
Wie emperator schon schreibt: Das EVGA SR-x wäre wohl kaum so gefloppt wenn es auch nur einen E5 2xxw mit offenem Multi gegeben hätte

Du hast recht, ich widerrufe die Aussage. Hab mich da mit dem E5 26xxW v1/v2 von den hwbot.org Ergebnissen verwirren lassen. Hatte den "all core turbo" nicht mehr auf dem Schirm und hab aus dem erhöten Multi die falschen Schlüsse gezogen.

DragonTear · 10.09.2014

Ach.. schön waren die Zeiten als sich Intel das OC nicht noch zusätzlich bezahlen ließ... -_-'

Milleniumdeluxe · 10.09.2014

Ich bin mal gespannt, wie Asus das mit dem Z10PE-D8 WS macht mit dem übertakten. Die schreiben was von 10%.
Naja in den News steht auch nix von dem Board....
Aber mir persönlich gefällt es schonmal gut.

BTW ich glaube was gelesen zu haben, dass die den Takt nur bei diesen AVX dingend anpassen und sonst die normalen Specs laufen. Kann mich aber auch irren.....

jdl · 10.09.2014

Fr@ddy schrieb:
Laut Heise.de sind nicht nur die turbostufen verringert. Der E5-2699 v3 soll bei AVX code nur noch mit 1.9GHz anstelle von 2.3GHz getaktet sein.

Das ist richtig. Allerdings im Allcore Turbomode taktet der E5-2699v3 mit nonAVX 2.8GHz und mit AVX 2.6GHz. D.h. der Unterschied wird durch den Einsatz des Turbos geringer.

Fr@ddy schrieb:
Bei manchen codes gewinne ich mit AVX flags keine 20% Leistung weil ein großer Teil eben nicht Vektoroperationen sind.

Die Compiler vektorisieren von selbst, wenn der Programmcode das erlaubt. Bei typischen HPC Code braucht man im Grunde gar nichts zu machen, da ohnehin auf Vektoren und Matrizen gearbeitet wird und die Einzeloperationen echt parallel ausgeführt werden können. In Fortran gibt es extra elemental Funktions, die anzeigen, daß sie parallel auf Vektoren, Matrizen angewandt werden können.

Fr@ddy schrieb:
Sehen Entwickler und Tester dann, dass solcher code ohne vektorisierung auf der Hardware schneller läuft?

Es gibt für solche Fälle extra Werkzeuge z.B. Intels VTune Amplifier.

Morpheus2200 · 10.09.2014

Naja man muss dem compiler schon die richtigen flags mitgeben damit der neuere Vektoreinheiten auch benutzt.

Ich hab bisher mit älteren VTune Versionen gearbeitet, hab mich damals immer gern an die walltime gehalten. Kann man in der neuen Version dann clock cycle count irgendwie mit dem zu dem Zeitpunkt aktuellen Takt verknüpfen? Da hatten wir aber auch nur eine Hardwareplattform zum rechnen zur Verfügung jetzt sinds schon ohne Haswell EP drei.

Wenn mal alle HPC codes in fortran geschrieben wären und nur Vektoren und Matrizen als Datenstrukturen kennen würden... Wir haben teilweise abartige Konstrukte in C/C++ die in speziellen Anwendungen auch bis zu 90% Speicher sparen können. Punkte gleichen Zustands in einem 3D System werden da mit pointern ersetzt. In der nächsten Subroutine kann es aber auch mal wieder eine gut vektoeisierbare Aufgabe geben. Das ganze ist dann auch noch von den Eingabedaten abhängig.
Soll aber am ende von einer Zentralen Installation auf 3 Hardwareplattformen für Probleme unterschiedlicher Größenordnungen benutzt werden.
Und da probiert nicht jeder nochmal aus ob für seine Rechnung jetzt die version mit oder ohne AVX flotter läuft. Vielleicht mal für einzelne Fälle die wochen oder Monate laufen.
Fast genauso schlimm wird es bei Komerziellen Programmen mit Nutzer subroutinen oder fast allem wo man irgendwelche fremden Bibliotheken hantiert, die nicht im Quelltext vorliegen sondern in irgend einer vor 5 Jahren vorkompilierten Version.
Ja auch solche Software landet auf dem ein oder anderen hpc cluster. Je mehr da kooperiert und vor allem zugekauft wird, destso schlimmer manchmal die flickschusterei.
Das alles ist auch so schon schlimm genug ohne schwankenden Takt.

Vor allem was soll die Absenkung, wenn man allcore turbo mit AVX ja scheinbar deutlich mehr fahren kann.

jdl · 12.09.2014

Fr@ddy schrieb:
Wenn mal alle HPC codes in fortran geschrieben wären und nur Vektoren und Matrizen als Datenstrukturen kennen würden... Wir haben teilweise abartige Konstrukte in C/C++ die in speziellen Anwendungen auch bis zu 90% Speicher sparen können. Punkte gleichen Zustands in einem 3D System werden da mit pointern ersetzt. In der nächsten Subroutine kann es aber auch mal wieder eine gut vektoeisierbare Aufgabe geben. Das ganze ist dann auch noch von den Eingabedaten abhängig.

Das ist immer das Problem, daß man Datenstrukturen suchen muß, die optimal fürs Problem sind. Kompakte Datenstrukturen sind meist schlecht fürs Rechnen. Mir ist bisher auch keine Quadratur des Kreises bekannt, und man muß es einfach ausprobieren. Unter Umständen ist es sinnvoller vollständige Matrizen zu nutzen, obwohl man weiß das sie nur dünnbesetzt sind. Mit Zeiger herum zu hantieren ist bei den modernen CPUs reines Gift, weil die Zahl der Cache Hits in den Keller geht.

Fr@ddy schrieb:
Vor allem was soll die Absenkung, wenn man allcore turbo mit AVX ja scheinbar deutlich mehr fahren kann.

Es gibt in den Slides Hinweise darauf, daß die Taktrate mit AVX sehr stark von der Wärmeentwicklung abhängt. Solange die Boards die Stromversorgung gewährleisten können, muß "nur" eine ausreichende Kühlung verbaut haben. Die Doku der Xeon E5 spricht von >200W Leistungsaufnahme unter Spitzenlast. Mal sehen wieviel Strom die E5v3 ziehen, die Doku ist noch nicht öffentlich verfügbar.

Morpheus2200 · 12.09.2014

Ja ich halte von der pfuscherei mit pointern auch nichts. Aber bei extrem dünn besetzten Matrizen und hohem speicherbedarf kann man sich halt teilweise an ~8 fache Systemgröße wagen. Dauert zwar was länger aber irgendwann sind auch die Ergebnisse da.

Ja kühlbar solls ja auch bleiben, schon bei den E5-2670 erreiche ich mit AVX codes knapp über 80°CPU temperatur bei 22°C Lufttemperatur an der Server front. Die Schattenseite dicht gepackter Systeme.
Ohne AVX sinds locker 10° weniger.
Ich denke mal für solche workloads sind die Xeon EPs mit weniger Cores interessanter, die werden nicht so schnell ans limit kommen. Dann nimmt man halt nen paar kisten Mehr pro Simulation.
Bis 8 cores hängen die Caches ja scheinbar noch an einem Ringbus ohne Switches dazwischen. Trozdem mit 4 Kanal Speicheranbindung.
Aber da kommt man ja auch auf den Gedanken, dass man eben so gut single Socket Systeme mit 16 Cores nehmen könnte. Wobei da wohl wieder die TDP pro socket limmitiert.
Echt nicht so einfach diese Generation.

jdl · 12.09.2014

Fr@ddy schrieb:
Aber da kommt man ja auch auf den Gedanken, dass man eben so gut single Socket Systeme mit 16 Cores nehmen könnte. Wobei da wohl wieder die TDP pro socket limmitiert.
Echt nicht so einfach diese Generation.

Die üblichen HPC Knoten sind ohnehin DualSocket Systeme, und man sollte das Preisoptimum heraussuchen, d.h. über den kompletten Knotenpreis das Maximum an Leistung/Preis. Notfalls startet man weniger MPI Ranks pro Knoten, durch den Turbomode taktet dann die CPU ohnehin schneller.

Morpheus2200 · 13.09.2014

Naja genau da lohnt es meist eher die CPU mit weniger cores zu kaufen, weil die auch so schon höher takten und eben deutlich günstiger angeboten werden.
Sobald man halt mehr als 1 Knoten nutzt muss man auch wieder das Kommunikations- und Skalierungsverhalten der codes ein bisschen kennen und eine Sinvolle Topologie für die Anzahl der Knoten wählen.
Aber da sollte man schon wissen was man ausgeben kann um sinvoll zu Planen. Infiniband Hardware kann recht schnell ein großer Kostenfaktor werden. Nonblocking Architekturen werden ab eine gewissen größe richtig teuer, da kann man echt froh sein, wenn man darauf verzichten kann.

Ich persönlich bin ja eher ein Fan davon die Anzahl der Knoten geringer zu halten indem man die einzelnen Knoten gut ausstattet.
Bedeutet weniger Geld für Infrastruktur, Monitoring, Wartung, eine bessere Auslastung des zur verfügung stehenden Speichers und kleinere Netzwerke

IDF 2014: Intel stellt Xeon-E5-v3-Familie vor

Chefredakteur

Banned

Neuling

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Semiprofi

Enthusiast

Semiprofi

Enthusiast

Legende

Enthusiast

Enthusiast

Semiprofi

Enthusiast

Semiprofi

Enthusiast

Semiprofi

Ähnliche Themen