> > > > IDF 2012: Haswell-Architektur: Breitere Pipelines und Caches

IDF 2012: Haswell-Architektur: Breitere Pipelines und Caches

DruckenE-Mail
Erstellt am: von

idflogo2012Während des Intel Developer Forums gab Intel erste Einblicke in die Architektur der kommenden Haswell-Generation. Ein Vorteil der neuen Haswell-Generation soll seine erhöhte Single-Thread-Performance sein, die auf Verbesserungen bei der Architektur zurückzuführen sind. In einer Technical Session zeigte man den neuen Aufbau der Cores - zudem hat Intel bereits einen Einblick auf die Stromspartechniken zugelassen. 

Wie bei jedem Intel-Prozessor wurde wieder an der Branch Prediction Einheit gefeilt, das Front End des Prozessors wurde massiv verbessert, die Puffer vergrößert und die Anzahl der Execution Units erhöht (von sechs auf nun acht), während gleichzeitig deren Latenz verbessert wurde. Hinzu kommt eine größere Bandbreite bei den Caches, deren Größe aber zumindest im L1- und L2-Bereich identisch bleiben sollen.  

Optimierungen an der Architektur

Intel erreicht durch eine Erhöhung der Buffer Sizes eine bessere Paralellisierung von Workloads. Haswell hat im Vergleich zur Sandy-Bridge-Architektur in allen Bereichen (Out-of-Order Window, In-Flight Loads, In-Flight Stores, Scheduler Entries, Integer Register Files, FP Register Files und Allocation Queues) eine größere Buffer Size. Dabei hat Intel aber aufgrund der Effizienz darauf geachtet, die Buffer auf einem aufeinander abgestimmten Niveau zu halten und nicht zu sehr aufzublasen - denn ungenutzte Buffer verbrauchen nur Strom, bringen aber keinen Geschwindigkeitsvorteil mehr. 

Ein weiteres neues Kernfeature für Haswell sind Advanced Vector Extensions 2 (kurz Intel AVX2). Diese Befehlssatzerweiterung besitzt unter anderem jetzt 256-bit Integer Vectors, zudem wird Fused Multiply-Add unterstützt. Intel schafft es damit die Flops pro Taktzyklus bei Haswell zu verdoppeln. Als Resultat erhält man bei Anwendungen, die AVX2 nutzen, eine deutlich höhere Performance. Die Integer Instructions behandeln hauptsächlich den Bereich Indexing und Hashing, Kryptografie und Endian Conversion (MOVBE). Durch Fused Multiply-Add wird zudem das Rechenergebnis genauer, da bei einer getrennten Operation zwei Rundungsvorgänge vorhanden sind, bei der Abwicklung mit FMA jedoch nur einer enthalten ist.

Spannend sind die Verbesserungen bei der Cache-Bandbreite. Während die Größe für den L1-Instruction- und Data-Cache weiterhin bei 32K und einer 8-fach assoziativen Anbindung geblieben sind, hat Intel die Load- und Store-Bandbreite im Vergleich zu Sandy Bridge von 32 Bytes pro Cycle auf 64 Bytes pro Cycle für Load und von 16 Bytes/Cycle auf 32 Bytes/Cycle für Store aufgebohrt. Der L2-Cache bleibt ebenso bei 256K und 8-Fach assoziativer Anbindung, auch hier bohrt man die Bandbreite zum L1-Cache auf 64 Bytes/Cycle auf. Als wichtige Veränderung hat Intel zudem die Größe des Unified Translation Lookaside Buffers (L2 Unified TLB) auf eine Größe von 4K + 2M shared mit 1024 Einträgen aufgebohrt. Die Latenzzeit der Caches wurde trotz der Verbesserungen gleich behalten. 

Auch den System Agent und Last Level Cache hat Intel überarbeitet. Man bietet unter anderm mehr Bandbreite für den Shared Last Level Cache durch neue, dedizierte Pipelines, die Data und Non-Data-Zugriffe parallel behandeln können. Für den System Agent gibt es einen neuen Load-Balancer, der die Ressourcen effektiver verteilen kann. Zudem wird auch der DRAM Write Throughput durch bessere Queues und einen besseren Scheduler beschleunigt. Auch hier wurde aber auf eine niedrigere Energieaufnahme geachtet und insbesondere die Idle-Power gesenkt. 

Als weitere Architektur-Features ist die neue Intel TSX-Technik mit Lock Elision zu nennen. Zudem hat Intel die Geschwindigkeit für Roundtrips bei Virtualisierung in VT-x noch einmal deutlich beschleunigt, hier liegt man jetzt unter 500 Zyklen pro Roundtrip.

Optimierungen am Stromverbrauch 

Beim Stromverbrauch geht Intel den Weg weiter, möglichst alles abzuschalten, was nicht gerade benötigt wird. Interessant ist, dass Intel die Kerne vom LLC+Ring nun trennt und jeweils eine separate Frequency Domain anbietet. Dadurch soll eine genauere Steuerung der Taktraten möglich sein. Die Power Control Unit steuert dabei dynamisch das vorhandene TDP- oder Strom-Budget, wenn man ein Limit angibt. 

Als weiteres Feature hat Intel einen neuen Power-State im C7-Modus untergebracht. Hier werden alle Takte gestoppt, die Spannung wird vom Hauptteil der CPU genommen - selbst, wenn das Display noch aktiv ist. Die Zeitspanne zum Aufwecken aus dem C7 Modus und zum Schalten in andere C-Modi hat Intel dabei um 25% beschleunigt. Durch neue Idle-States für Tablets (S0ix) und eine neue C-State-Intelligenz möchte man den Stromverbrauch weiter senken - und schafft dies gegenüber Ivy Bridge auch massiv im Idle-Power-Bereich 

Auch hat Intel nun eine eigene Power-Domain für die Grafik - mit der CPU und dem System Agent ist dies also die dritte Power Domain. Intel kann die Spannungen für die CPU also so steuern, wie gerade Leistung benötigt wird - das sollte auch die Active Power reduzieren oder gleichzeitig eine höhere Taktung und höhere Turbo-Modi möglich machen.  

Durch diese Veränderungen ist auch zu erklären, warum Haswell in ersten Demonstrationen nur 8 Watt verbraucht hat: Die Grafik war hier zwar aktiv, aber viele andere Bereiche der CPU konnte Intel abschalten. 

Social Links

Kommentare (38)

#29
customavatars/avatar111173_1.gif
Registriert seit: 27.03.2009
provinz [email protected] Sexony
Fregattenkapitän
Beiträge: 2731
Zitat Master Luke;19455391
och, ich kenne da einige (inkl. mir), die eine i3K sofort kaufen und knechten würden. 2x5Ghz wäre sehr gut bei meinem anwendungsprofil.

blöd nur, dass dann heraus kommt, dass die i3 die i5 und i7 in den meisten fällen abledern, bei geringerem preis. gilt natürlich nicht für die edelzocker und workstation-inhaber.

Ach da wären wir ja schon zu zweit ^^ Hätte auch nichts gegen einen hypothetischen i4 mit 3Kernen + SMT + K :D
#30
customavatars/avatar17977_1.gif
Registriert seit: 16.01.2005
HH\Wandsbek\Hinschenfelde
Korvettenkapitän
Beiträge: 2464
Zitat Master Luke;19455391
och, ich kenne da einige (inkl. mir), die eine i3K sofort kaufen und knechten würden. 2x5Ghz wäre sehr gut bei meinem anwendungsprofil.

blöd nur, dass dann heraus kommt, dass die i3 die i5 und i7 in den meisten fällen abledern, bei geringerem preis. gilt natürlich nicht für die edelzocker und workstation-inhaber.


Dito.. Ein i3K wäre sofort gekauft, denn ich spiele mittlerweile soo wenig, und wenn dann Games die auf 2Cores laufen, da sind dann grade Perlen wie SC2, CoH etc bei. Und dafür brauch man keine 200€ CPU :D So scheidet der i3 (Noch) aus, denn ich will OC bei Leistungsbedarf haben
#31
customavatars/avatar108198_1.gif
Registriert seit: 08.02.2009
München
Flottillenadmiral
Beiträge: 4524
Ein i3 den man günstig kaufen kann und per Board taktet wäre eine nette Sache. Vorallem ältere Spiele profitieren von weniger Kernen, dafür mehr IPC. Leistungshungrige Mods schließe ich mit ein.
#32
Registriert seit: 23.08.2004

Flottillenadmiral
Beiträge: 5672
Nur wie günstig würde ein solcher i3 sein? Aktuell kostet das Topmodell ~130€. Wenn ein "i3 K" für 150€ erhältlich wäre, würde ich jedem Käufer die gut 50€ Aufpreis zu einem i5 3570K anraten. Zumal selbst das schlecht parallelisierte Starcraft 2 auf einem i5 ~20% schneller läuft als auf einem i3 mit gleichem Takt.
#33
customavatars/avatar20397_1.gif
Registriert seit: 07.03.2005

Admiral
Beiträge: 11185
ein i3 für so viel würde nicht klappen. da ist amd,s leistung schon wieder günstiger.
die masse achtet ja mehr auf leistung als auf nicht auf die bessere effizienz.
#34
customavatars/avatar43872_1.gif
Registriert seit: 31.07.2006

Fregattenkapitän
Beiträge: 2938
Zitat Undertaker 1;19450509
Ich sehe da weder eine Parallele zu CMT - auch bei Haswell könnten alle Ausführungseinheiten weiter von nur einem Thread genutzt werden, der Nutzen von CMT verpufft wenn kein zweiter Thread pro Modul läuft - noch Anzeichen dafür, dass SMT auf einmal die 3- bis 4-fachen Zugewinne bringt. Wenn du von aktuell 15 % sprichst, scheinst du auch Szenarien mangelhafter Parallelisierung einzurechnen - um in einem solchen Anwendungsmix auf bis zu 60% zu kommen, braucht es schon eher die doppelte Kernzahl.

Für SMT braucht man genug Ausführungseinheiten. Ich habe nicht behauptet, dass Haswell CMT hat, aber es wird zu einem Quasi-CMT, wenn die Ausführungseinheiten nur dafür da sind, SMT zu beschleunigen.

Da Intel selbst von nur 15% Performancezugewinn spricht, meinen sie damit sicherlich Singlethreaded. Und mehr ist da Singlethreaded auch nicht drin, die zusätzlichen Einheiten können nur durch SMT wirklich genutzt werden. Wir werden es in 1/2 Jahr schwarz-auf-weiss sehen.
Zitat

In aktuellen, ausreichend parallelisierten Szenarien bringt SMT zwischen 20 und 25% bei Sandy oder Ivy Bridge. Ich glaube nicht, dass wir bei Haswell plötzlich mehr als 30% sehen werden (eher weniger). Nur um dir deine Prognose mal genau vorzurechnen: Ein Anstieg der pro-Thread-Leistung um 15% und ein um 35-45% höherer SMT-Gewinn würden eine 50-60% höhere Multithreadleistung von Haswell gegenüber Ivy Bridge ergeben. Damit wäre ein 4-Kern Haswell 10-20% schneller als SBe, der auch nach dem Launch von Haswell weiter das High End repräsentiert.

Bei solchen Zahlen sollte klar werden, dass diese Prognose Unfug ist.

Das Problem bei SMT ist, dass Sandy/Ivy es in Last-Scenarien verstehen, die Ausführungseinheiten gut auszulasten, was dann zulasten von SMT geht. Wenn SMT effizient ist beim Sandy/Ivy, haben die Ausführungseinheiten genug Luft, die Anwendung läuft also nicht so effektiv. Haswell löst genau dieses Manko jetzt auf. Man kann also durch mehr Threads auch wirklich mehr Leistung erzeugen pro Kern. Daher auch die internen Verbreiterungen, die Singlethreaded ja überhaupt nichts bringen würden. Zudem löst man die letzten Schwächen im Frontend jetzt auf.

Und Meine Prognose ist kein Unfug. Du darfst Haswell nicht mit Sandy-E vergleichen sondern mit Ivy-E und hier gibts bis zu 12 Kerne. Selbst 6 echte Kerne mit SMT werden immer noch schneller sein 4 Haswell-Kerne, aber der Abstand wird geringer. Hinzu kommt, dass das heute ja auch schon gilt; ein Ivy mit 3,6GHz ist schneller als ein Sandy-E 3820. Warum sollte das bei Ivy-E anders sein? Kleine Versionen muss es auch weiterhin für Sockel2011 geben.
#35
customavatars/avatar84710_1.gif
Registriert seit: 10.02.2008

Admiral
Beiträge: 15048
Zitat [HOT];19463440
Du darfst Haswell nicht mit Sandy-E vergleichen sondern mit Ivy-E und hier gibts bis zu 12 Kerne. Selbst 6 echte Kerne mit SMT werden immer noch schneller sein 4 Haswell-Kerne, aber der Abstand wird geringer. Hinzu kommt, dass das heute ja auch schon gilt; ein Ivy mit 3,6GHz ist schneller als ein Sandy-E 3820. Warum sollte das bei Ivy-E anders sein? Kleine Versionen muss es auch weiterhin für Sockel2011 geben.


Sandy-E und Ivy-E ist doch eh das gleiche, haben wir doch schon bei Sockel 1155 gesehen. Die Unterschiede sind marginal, außerdem steht eh nicht fest wann Intel Ivy-E zum Enthusiasten-Melken auf den Markt schmeißt.
#36
Registriert seit: 23.08.2004

Flottillenadmiral
Beiträge: 5672
Zitat [HOT];19463440
Für SMT braucht man genug Ausführungseinheiten. Ich habe nicht behauptet, dass Haswell CMT hat, aber es wird zu einem Quasi-CMT, wenn die Ausführungseinheiten nur dafür da sind, SMT zu beschleunigen.


Das ist aber ein sehr merkwürdiger Schluss. Zudem bin ich doch sehr gespannt auf die Behauptung, dass die Multithreadleistung gegenüber der Singlethreadleistung überproportional steigen soll, SMT also auf einmal den von dir genannten, 3-4x Leistungszuwachs gegenüber Sandy/Ivy Bridge bringen soll.

Zitat [HOT];19463440
Und Meine Prognose ist kein Unfug. Du darfst Haswell nicht mit Sandy-E vergleichen sondern mit Ivy-E und hier gibts bis zu 12 Kerne.


Natürlich muss man Haswell, also die normale Consumer-Version mit bis zu 4C/8T, auch mit dem Enthusiasten-Ableger von SBe vergleichen. Beide werden nämlich mehrere Monate parallel am Markt koexistieren. Ein SBe lässt sich aber nicht verkaufen, wenn Haswell nicht nur bei Singlethreading (denn hier ist ja bereits Ivy Bridge im Vorteil), sondern auch bei Multithreading schneller ist. Das sollte logisch sein.

Zitat [HOT];19463440
Selbst 6 echte Kerne mit SMT werden immer noch schneller sein 4 Haswell-Kerne, aber der Abstand wird geringer.


Jetzt wirds aber wirklich widersprüchlich. Darf ich dich an deine obigen Behauptungen erinnern?

Zitat [HOT];19449744
Die IPC pro Thread steigt ja lt. Intel um maximal 15%.

Zitat [HOT];19449744
Dafür steigt die SMT-Leistung sicher von durchschnittlichen 15% auf 50 oder gar 60%. Das ist auch ne gute Methode, die Leistung zu steigern.


Haswell soll laut dir also pro Thread bis zu 15% schneller werden, den SMT-Gewinn vervierfachen(!) und dennoch langsamer als Sandy Bridge E sein? Bitte nochmal genau überlegen, ob das wirklich Sinn macht, was du dir da ausmalst.
#37
customavatars/avatar18572_1.gif
Registriert seit: 27.01.2005

Korvettenkapitän
Beiträge: 2165
Her ist nochmal ein neuer, wirklich sehr guter Artikel von Anandtech zu Haswell.

AnandTech - Intel's Haswell Architecture Analyzed: Building a New PC and a New Intel

Die neuen Stromsparmechanismen mit Power gating (auch Teilbereiche der einzelnen Kerne abschalten) und besseren, schnelleren power states switches führen hauptsächlich zur Stromersparnis bei. Der neue Powerstate heißt dann SOix.

etc., etc. Steht ja auch großteils im Hardwareluxx Artikel.
#38
Registriert seit: 20.12.2003
Karlsruhe
Fregattenkapitän
Beiträge: 2673
Zitat Mick_Foley;19452054
Seit ich einen BWLer über seitliches Wachstum reden gehört habe, weiß ich wie man sich kosten neutral Ausdrückt... :D der erahnte Sinn seiner Aussage ist allerdings durchaus wahrscheinlich... :D



:haha::haha::haha::haha:


made my day
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

16 Threads für 550 Euro: AMD RYZEN 7 1800X im Test

Logo von IMAGES/STORIES/LOGOS-2017/AMD_RYZEN_TEASER_100

Eine neue Ära – so beschreibt AMD selbst den Start der RYZEN-Prozessoren. Die dazugehörige Zen-Architektur soll ein Neustart für AMD sein und das auf allen wichtigen Märkten. Den Anfang machen die RYZEN-Prozessoren auf dem Desktop. Die Zen-Architektur soll AMD aber auch zu einem Neustart auf... [mehr]

Core i7-6950X im Test: Dicker Motor, alte Karosse

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/6950X/6950X-LOGO

Intels letzter CPU-Launch ist schon eine Weile her - Ende Oktober 2015 testeten wir den Xeon E5-1230v5 auf Skylake-Basis, seitdem war zumindest im Desktop-Bereich nichts neues mehr vom Marktführer zu hören. Am heutigen Tag aktualisiert Intel endlich die High-End-Plattform und bringt mit dem Core... [mehr]

AMDs Ryzen 7 1700X im Test: Der beste Ryzen?

Logo von IMAGES/STORIES/LOGOS-2017/AMD_RYZEN_TEASER_100

In unserem ausführlichen Testbericht zu AMDs Ryzen 7 1800X in der letzten Woche hatten wir bereits angekündigt, dass wir weitere Artikel rund um AMDs neues Flaggschiff bringen werden. Den Anfang macht ein Kurztest zum Ryzen 7 1700X, der mit knapp 120 Euro weniger Kaufpreis momentan als das... [mehr]

Intel Core i7-7700K im Test - keine großen Sprünge mit Kaby Lake

Logo von IMAGES/STORIES/LOGOS-2016/KABYLAKE

Am heutigen 3. Januar stellt Intel die Desktop-Modelle der Kaby-Lake-Architektur vor. Wir haben natürlich den Launch-Test: Intels Flaggschiff, der Core i7-7700K, wurde von uns in den letzten Tagen durch diverse Benchmarks gejagt und gegen die Vorgänger verglichen. Allerdings sollte... [mehr]

AMD Ryzen 7 1700 im Test und übertaktet - der interessanteste Ryzen

Logo von IMAGES/STORIES/LOGOS-2017/AMD_RYZEN_TEASER_100

Mit dem Ryzen 7 1800X und Ryzen 7 1700X haben wir uns die beiden neuen Flaggschiff-Prozessoren von AMD näher angeschaut. Nun fehlt nur noch das dritte Modell im Bunde, das für viele Umrüst-Interessenten sicherlich der interessanteste Ryzen-Prozessor ist. Die Rede ist natürlich vom Ryzen 7 1700... [mehr]

AMD stellt die ersten RYZEN-Modelle offiziell vor: +52 % IPC ab 359 Euro

Logo von

AMD hat soeben die Modelle der RYZEN-Prozessoren offiziell vorgestellt. Dabei werden die meisten Gerüchte bestätigt, aber auch die letzten Fragen zu den Modellen beantwortet. Mit den RYZEN-Prozessoren bringt AMD die ersten CPUs auf Basis der neuen Zen-Architektur auf den Markt, die AMD wieder in... [mehr]