> > > > Haswell-E im Test: Intel Core i7-5960X

Haswell-E im Test: Intel Core i7-5960X

DruckenE-Mail
Erstellt am: von

Seite 3: Haswell-E im Detail (2)

Erinnern wir uns kurz an "Ivy Bridge" zurück: Im Vergleich zu "Sandy Bridge" hatte "Ivy Bridge" keine großartigen Veränderungen an der CPU-Architektur, denn "Ivy Bridge" war hauptsächlich ein "Tick" - es wurde eine neue Fertigungstechnologie eingeführt. Trotzdem waren 400 Millionen mehr 22-nm-Tri-Gate-Transistoren auf der CPU vorhanden, weshalb Intel gerne von einem "Tick+" gesprochen hatte. Doch diese hinzugefügten Transistoren gehörten alle zur Grafikeinheit von "Ivy Bridge". An der Struktur der CPU, am Aufbau, dem Memory-Controller und anderen Bereichen hat Intel nur Detailverbesserungen durchgeführt.

Wenn man die Architektur von "Haswell" bzw. "Haswell-E" nun betrachtet, kann man sich im Vergleich somit eigentlich auf "Sandy Bridge" beziehen. Erstmals gab Intel auf dem Intel Developer Forum (IDF) im September 2012 in San Francisco Einblicke in die "Haswell"-Architektur. Im Endeffekt hat Intel aber den groben Aufbau von "Sandy Bridge" beibehalten:

ringbus
Der Ringbus wurde erstmals mit "Sandy Bridge" eingeführt, um genügend
Leistung für die integrierte Grafik mitzubringen. Bei "Ivy Bridge" ist er in
unveränderter Art ebenso vorhanden, ähnlich sieht es bei "Haswell" und "Haswell-E" aus.

Veränderungen an den Kernen

Die neuen "Haswell-E"-Prozessoren bauen auf der altbekannten "Haswell"-Architektur auf und sind damit im Großen und Ganzen mit den kleineren Modellen zu vergleichen. Große Änderungen hat es mit Ausnahme des Speichercontrollers sowie des Cache- und Kernausbaus nicht gegeben.

Im September 2012 gab Intel erstmals einen Einblick in die "Haswell"-Architektur. Erstaunlicherweise berichtete man dort von einer Erhöhung der Single-Thread-Performance. Um dies zu erreichen, hat man einige Verbesserungen in die Kerne von "Haswell" integriert: Wie bei jedem Intel-Prozessor wurde wieder an der Branch-Prediction-Einheit gefeilt, das Front-End des Prozessors wurde massiv verbessert und die Puffer vergrößert, während gleichzeitig deren Latenz verbessert wurde. Hinzu kommt eine größere Bandbreite bei den Caches, deren Größe aber zumindest im L1- und L2-Bereich unverändert bleibt.

Intel erreicht durch eine Erhöhung der Buffer-Sizes eine bessere Parallelisierung von Workloads. "Haswell" und "Haswell-E" haben im Vergleich zu ihrer jeweiligen Vorgänger-Architektur in allen Bereichen (Out-of-Order Window, In-Flight Loads, In-Flight Stores, Scheduler Entries, Integer Register Files, FP Register Files und Allocation Queues) eine größere Buffer-Size. Dabei hat Intel aber aufgrund der Effizienz darauf geachtet, die Buffer auf einem aufeinander abgestimmten Niveau zu halten und nicht zu sehr aufzublasen - denn ungenutzte Buffer verbrauchen nur Strom, bringen aber keinen Geschwindigkeitsvorteil mehr.

Konkret hat Intel zwei Fused-Multiply-Add-Einheiten für AVX hinzugefügt, zwei zusätzliche Ports mit einer vierten Integer-ALU, eine zweite Sprungeinheit und eine Store-Adress-Einheit. Die Pipeline hat Intel beibehalten und sie nicht verlängert. Mit einigen Veränderungen entspricht sie also noch dem Vorgänger "Sandy Bridge" (und in der Basis sogar noch dem Pentium Pro). Die Größe des Out-of-Order-Window steigt auf 192 Einträge, "Sandy Bridge" besaß 168 Einträge. Gleichzeitig hat man die Reservation Station von 54 auf 60 Einträge aufgebohrt. Die Execution-Unit 7 entlastet die beiden Load/Store-Ports 2 und 3 durch eine dedizierte Store-Address-Einheit. Intel hat auch die physischen Register vergrößert, jetzt stehen 168 Einträge für das Floating-Point-Gleitkommaregister statt vorher 144 Einträge zur Verfügung, auch die Integer-Register wurden mit 168 Einträgen leicht erweitert (160). Als wichtige Veränderung hat Intel zudem die Größe des Unified-Translation-Lookaside-Buffers (L2 Unified TLB) auf eine Größe von 4K + 2M shared mit 1.024 Einträgen statt 512 Einträgen bei "Sandy Bridge" aufgebohrt. Wichtig war Intel die Beibehaltung der Länge der Pipeline und niedrige Latenzzeiten zu den Caches.

Neue Befehlssätze: Advanced Vector Extensions 2

Ein weiteres neues Kernfeature für "Haswell" und "Haswell-E" sind Advanced Vector Extensions 2 (kurz Intel AVX2). Diese Befehlssatzerweiterung besitzt unter anderem jetzt 256-bit Integer Vectors, zudem wird Fused Multiply-Add (zwei Einheiten für AVX) unterstützt. Intel schafft es damit die Flops pro Taktzyklus zu verdoppeln. Als Resultat erhält man bei Anwendungen, die AVX2 nutzen, eine deutlich höhere Performance. Die Integer Instructions behandeln hauptsächlich den Bereich Indexing und Hashing, Kryptografie und Endian Conversion (MOVBE). Durch Fused Multiply-Add wird zudem das Rechenergebnis genauer, da bei einer getrennten Operation zwei Rundungsvorgänge vorhanden sind, bei der Abwicklung mit FMA jedoch nur einer enthalten ist.

Cache-Bandbreite und sonstige Verbesserungen

Spannend sind die Verbesserungen bei der Cache-Bandbreite. Während die Größe für den L1-Instruction- und Data-Cache weiterhin bei 32K und einer 8-fach assoziativen Anbindung geblieben sind, hat Intel die Load- und Store-Bandbreite im Vergleich zu Sandy Bridge von 32 Bytes pro Cycle auf 64 Bytes pro Cycle für Load und von 16 Bytes/Cycle auf 32 Bytes/Cycle für Store aufgebohrt. Der L2-Cache bleibt ebenso bei 256K und 8-Fach assoziativer Anbindung, auch hier bohrt man die Bandbreite zum L1-Cache auf 64 Bytes/Cycle auf.

Auch den System-Agent und den Last-Level-Cache hat Intel überarbeitet. Man bietet unter anderem mehr Bandbreite für den Shared-Last-Level-Cache durch neue, dedizierte Pipelines, die Data und Non-Data-Zugriffe parallel behandeln können. Für den System-Agent gibt es einen neuen Load-Balancer, der die Ressourcen effektiver verteilen kann. Zudem wird auch der DRAM Write Throughput durch bessere Queues und einen besseren Scheduler beschleunigt. Letztendlich hat Intel die Geschwindigkeit für Roundtrips bei Virtualisierung in VT-x noch einmal deutlich beschleunigt, hier liegt man jetzt unter 500 Zyklen pro Roundtrip.

Intel Transactional Synchronization Extension (TSX) mit Lock Elision

Damit Multi-Core-Prozessoren immer mit validen Daten arbeiten, gibt es sogenannte Locks. Greifen mehrere Threads auf den Speicher zu, wird der entsprechende Bereich zunächst gesperrt (Lock), um eine Veränderung während der Verarbeitung zu verhindern. Mit diesem Prinzip rechnet jeder Kern für sich ein valides Ergebnis aus, da die Daten immer aktuell sind. Im Normalfall sind diese zeitaufwändigen Locks allerdings überflüssig, da nur sehr selten mehrere Threads bei Speicherzugriffen auf denselben Bereich konkurrieren. Hierfür gibt es mit Haswell nun TSX und Transactional Memory: Ein Speicherzugriff kann auch ohne Lock geschehen, somit können schneller Daten zur Bearbeitung in den L1-Cache geladen werden. Allerdings muss es hardwareseitig einen Mechanismus geben, der konkurrierende Zugriffe erkennt und dann die Berechnung abbricht. 

"Haswell" und "Haswell-E" haben zwei derartige Mechanismen. Hardware Locked Elision arbeitet nach dem obigen Prinzip und berechnet bei einem Konflikt denselben Code noch einmal unter Berücksichtigung der Locks. Restricted Transactional Memory hingegen meldet einen Abbruch erst einmal an die Software, die dann durch einen vorgesehenen Codepfad selber entscheiden kann, ob er mit Locks arbeiten möchte oder die Transaktion später wiederholen möchte. Beide Mechanismen arbeiten im L1-Daten-Cache der CPUs, "Haswell" kann aber auch Teilbereiche in die L2-Caches swappen.

Optimierungen am Stromverbrauch 

Beim Stromverbrauch geht Intel den Weg weiter, möglichst alles abzuschalten, was nicht gerade benötigt wird. Interessant ist, dass Intel die Kerne vom LLC+Ring nun trennt und jeweils eine separate Frequency Domain anbietet. Dadurch soll eine genauere Steuerung der Taktraten möglich sein. Die Power Control Unit steuert dabei dynamisch das vorhandene TDP- oder Strom-Budget, wenn man ein Limit angibt. 

Neuer Stromsparmodus "S0ix Active Idle"

Intel hat "Haswell" und "Haswell-E" neue Power- und Idle-States verpasst. Zum einen hat man neue Funktionen im Power-State im C7-Modus untergebracht. Hier werden alle Takte gestoppt, die Spannung wird vom Hauptteil der CPU genommen - selbst, wenn das Display noch aktiv ist. Die aktuellen Ultrabooks bieten sogar Self-Panel-Refresh (SPR), also kann kein Display-Bild bestehen bleiben, während das Ultrabook sich in C7 befindet. Die Zeitspanne zum Aufwecken aus dem C7-Modus und zum Schalten in andere C-Modi hat Intel dabei um 25 Prozent beschleunigt.

Durch neue Idle-States - S0ix Active Idle - und eine neue C-State-Intelligenz möchte man den Stromverbrauch weiter senken - und schafft dies gegenüber "Ivy Bridge" auch massiv im Idle-Power-Bereich. Bei S0ix Active Idle wird der Energieverbrauch des Rechners auf S3/S4-Niveau abgesenkt, aber es gibt keine lange Aufwachzeit. Intel realisiert dies vollautomatisch in der Hardware in feinen Abstufungen. Durch die generelle Beschleunigung zwischen den C-States um 25 Prozent und neue Power-Management-Funktionen für die Peripherie sind deutlich schnellere Wechsel innerhalb der C-States möglich.

haswell power optimizers
Insbesondere der Wechsel zwischen Idle- und Aktiv-Betrieb wurde von Intel massiv verkürzt. S0ix als Platform-Level spart dabei zusätzlich Energie. 

System Agent (ehem. Uncore-Bereich)

Der System-Agent-Bereich der CPU hat zwar einige Optimierungen bezüglich der Stromspartechniken erhalten, ansonsten bleibt er aber größtenteils unverändert, mit Ausnahme des Memory-Controllers:

Memory-Controller

Eine der größten Änderungen von "Haswell-E" ist im Speichercontroller zu finden. Kam die ältere "Ivy Bridge-E"-Generation noch mit 1.866 MHz schnellen DDR3-Speichermodulen zurecht, arbeiten die neuen Modelle nun mit DDR4-Speicher zusammen. Ab Werk werden Module mit einer Geschwindigkeit von 2.133 MHz unterstützt. Mithilfe weiterer Teiler können aber auch noch schnellere Module verwendet werden. Derzeit gibt es Kits mit einer Geschwindigkeit von bis zu 3.200 MHz.

Keine Änderungen gibt es bei den Kanälen. Auch die neuen Modelle arbeiten im Quad-Channel-Betrieb und ermöglichen damit im Gegensatz zu "Haswell" oder "Haswell Refresh" deutlich höhere Speicherbandbreiten und RAM-Bestückungen. Bis zu 64 GB Arbeitsspeicher werden in den acht Speicherbänken zahlreichen X99-Mainboards unterstützt. Damit gibt es zumindest bei der maximalen Speicherkapazität keine weitere Aufstockung im Vergleich zu "Ivy Bridge-E". Zahlreiche Mainboard-Hersteller wie ASRock oder EVGA geben aber auch an, dass ihre Boards mit bis zu 128 GB Arbeitsspeicher bestückt werden können. Neu ist auch die Unterstützung des XMP-Profils in Version 2.0. Die beiden Vorgänger-Generationen unterstützen hier lediglich Version 1.3.

PCI-Express-Interface

Im Vergleich zum direkten Vorgänger hat sich nichts getan. "Haswell-E" und "Ivy Bridge" unterstützen schon beide PCI Express 3.0 - und da dieser Standard momentan immer noch State-of-the-Art ist, bleibt es bei 8 GT/s pro PCIe-Lane, also 984 MB/s. Mit einer theoretischen Bandbreite von 16 GB/s bei PCIe-3.0-x16 pro Richtung kommt man somit auf 32 GB/s Bandbreite insgesamt.

Direct Media Interface

An der Anbindung zwischen CPU und dem (X99-)Chipsatz hat Intel keine Veränderungen durchgeführt. Hier kommt die bekannte DMI 2.0 x4-Verbindung zum Einsatz. Der Platform-Controller-Hub wird also mit 5 GT/s angebunden, wobei diese Technik insgesamt auf 4 GB/s Übertragungsrate kommt. Dass Intel hier keine schnellere Anbindung gewählt hat, ist etwas verwirrend, denn in den letzten Jahren war ein Argument gegen eine größere Anzahl USB-3.0- und SATA-6G-Ports die Anbindung zum Prozessor: Man wolle den DMI-Bus nicht zum Flaschenhals werden lassen. Mit den neuen Chipsätzen hat Intel nun reichlich USB-3.0- und SATA-6G-Ports, trotzdem geht man wohl davon aus, dass die 4 GB/s Übertragungsrate zum Prozessor kein Problem darstellen.

 

Social Links

Seitenübersicht

Kommentare (144)

#135
Registriert seit: 30.03.2005

Hauptgefreiter
Beiträge: 245
Moin Kollegen,
ich wäre dankbar, wenn die Linux-User unter Euch mal mit "cryptsetup benchmark" im Forum http://www.hardwareluxx.de/community/f11/cryptsetup-benchmark-linux-1032882.html
helfen würdet. Danke!
#136
customavatars/avatar22571_1.gif
Registriert seit: 06.05.2005

Fregattenkapitän
Beiträge: 2829
Zitat fdsonne;22588887

Unterm Strich, wenn du wirklich absolute MT Performance brauchst, kommst du wohl mit nem Dual Xeon E5 im reinen P/L günstiger weg.
Brauchst du nen gesunden Mix aus ST und MT Performance, ist hoher Takt quasi pflicht. Da brauchst du dann auch nicht irgendwelchen ~2GHz 8-12 Core CPUs anfangen, die sind zwar in MT fix, aber im ST einfach lahm...


Der kleinste 8-Kerner hat 2,4Ghz und einen Turbo von bis zu 3,2 Ghz. Das Top Model hat sogar noch einen strafferen Turbo bis 3,6Ghz. Klar sinkt der Takt mit jedem weiteren genutzen Core, aber in Summe ist die Performance dennoch höher als bei den nur 8 Kernen beim 5960x. Aber psssst, nicht weitersagen.
#137
customavatars/avatar73342_1.gif
Registriert seit: 22.09.2007

Admiral
Beiträge: 13388
Bei dual thread last ist ein Single x5960x trotzdem fixer, denn da kann der Xeon einfach den Takt nicht mitgehen. Der Rest der e5 hilft bei sowas nicht...

Die meisten hier wollen ja auch zocken ;) da sind dual Cpu Systeme eher suboptimal

Gesendet von meinem C2005 mit der Hardwareluxx App
#138
customavatars/avatar22571_1.gif
Registriert seit: 06.05.2005

Fregattenkapitän
Beiträge: 2829
Es ging um die Aussage der 5960x sei für "profiarbeiten" und wäre zwingend erforderlich wenn es um einen gesunden mix aus Takt und cores geht. Das ist schlicht falsch. Du brauchst auch nicht mit 2 lächerlichen threads um die Ecke kommen und behaupten die Xeon würden dann taktechnisch in der Bedeutungslosigkeit rumgurken. Nur mal als info: das topmodell mit 18 cores ist sich bei Last auf 2 threads nicht zu schade mit 3.6ghz unter Wegs zu sein. Auf allen 18 cores liegt der Turbo immer noch bei 2.7ghz. Wenn man wirklich viele Cores brauch sind sind Xeon teilweise deutlich attraktiver. Nur als gamer braucht die extrem hohen Takte über 4 GHz und auch nur da macht der 5960x noch Sinn.
#139
customavatars/avatar73342_1.gif
Registriert seit: 22.09.2007

Admiral
Beiträge: 13388
Das auch Xeons Turbo haben hatte ich nicht bestritten, und das ein Xeon bei 90% Nutzung im Anwendunngsbereich die bessere Lösung ist, ist auch klar.

Die zwei lächerlichen Threads tauchen aber bei Games eben auf. Und da sagst du ja selbst, das min. 10% mehr Takt als einige Xeon bringen sinnvoll sind.

Für Gamer ist ein 5960x daher unter Umständen interessant, für Anwender ist aber OC oft eh nix und Kerne Zählen. Darum gibts die CPUs ja ;)

Gesendet von meinem C2005 mit der Hardwareluxx App
#140
customavatars/avatar22571_1.gif
Registriert seit: 06.05.2005

Fregattenkapitän
Beiträge: 2829
Ich habe nichts anderes gesagt. Für gamer ist der 5960 interessant für alle anderen nicht. Und wie gesagt es ging nicht um gamer Szenarios...
#141
customavatars/avatar189080_1.gif
Registriert seit: 25.02.2013
Heidelberg
Oberstabsgefreiter
Beiträge: 403
Nichts weltbewegendes bis auf den gesenkten Stromverbrauch welcher den
krassesten Unterschied darstellt. Leistung per core.. marginale erhöhung
und klar es ist ein Achtkerner aber das ist auch nichts spektakuläres [U]meiner Auffassung nach [/U] ..

Witzig, dass mir ein 2700K noch die nächsten Jahre reichen wird, denn ich schätze mal es
wird ca 1 1/2 bis 2 Jahre dauern, bis sich die Leistung der GTX980 verdoppelt wenn es bei diesem
Tempo bleibt.

All die anderen können ja gern zum Epeen greifen :P
#142
customavatars/avatar72612_1.gif
Registriert seit: 11.09.2007

Korvettenkapitän
Beiträge: 2117
Ich hab auch über Wechsel nachgedacht. zZ. habe ich ein I7-920 C0 @ 3,4 GHz. Aber da bleibe ich lieber dabei und versuche 3,6-3,7 GHz zu packen. Taktbereinigt ist man bei 15% Zuwachs bei Haswell dabei. Da wird eine potente Grafikkarte eh die bessere Option sein.
#143
customavatars/avatar51109_1.gif
Registriert seit: 08.11.2006
Hannover
Moderator
BIOS Bernhard
Lutz
Beiträge: 33768
Das sollten schon mehr als 15% sein, da 15% schon zwischen sandy und haswell liegen(ungefähr) aber wenn dir deine cpu reicht dann bleib definitiv dabei. Hast ja mal ordentlich geld fuer die 1366er plattform gelassen
#144
customavatars/avatar73342_1.gif
Registriert seit: 22.09.2007

Admiral
Beiträge: 13388
Also bei nem Bloomfield zu Haswell sollten etwa 30% Differenz taktbereinigt bleiben, zu Westmere oder Gulftown sinds etwa gleich viel, wobei da ja dann der Vergleich Haswell-e zu Westmere eben dann auch passt.
Für 1366 user ist ein xeon x5650 sicher interessant.

Gesendet von meinem C2005 mit der Hardwareluxx App
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

Core i7-6950X im Test: Dicker Motor, alte Karosse

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/6950X/6950X-LOGO

Intels letzter CPU-Launch ist schon eine Weile her - Ende Oktober 2015 testeten wir den Xeon E5-1230v5 auf Skylake-Basis, seitdem war zumindest im Desktop-Bereich nichts neues mehr vom Marktführer zu hören. Am heutigen Tag aktualisiert Intel endlich die High-End-Plattform und bringt mit dem Core... [mehr]

So schnell ist Kaby Lake: Erste eigene Benchmarks zum i7-7500U

Logo von IMAGES/STORIES/REVIEW_TEASER/INTEL_KABY_LAKE

Offiziell vorgestellt hat Intel die 7. Generation der Core-Prozessoren bereits Ende August, doch erst jetzt ist Kaby Lake in Form des ersten Notebooks verfüg- und damit testbar. Dabei handelt es sich um das Medion Akoya S3409 MD60226, in dem ein Core i7-7500U verbaut wird. Während das Notebook... [mehr]

Intel 'Kaby Lake': Die siebte Core-Generation im Detail vorgestellt

Logo von IMAGES/STORIES/LOGOS-2016/INTEL_7TH_CORE_GEN

Im Zuge der kommenden "Kaby Lake"-Plattform, deren breite Verfügbarkeit für das erste Quartal 2017 erwartet wird, nutzt Intel heute die Gelegenheit, die siebte Core-Generation offiziell im Detail vorzustellen und bereits ein paar Prozessoren auf den Markt zu bringen. Wir konnten uns bereits vor... [mehr]

Delid Die Mate im Test

Logo von IMAGES/STORIES/IMAGES/STORIES/GALLERIES/REVIEWS/2016/DDM/DDM

Seit der Ivy-Bridge-Generation verlötet Intel Die und Heatspreader nicht mehr miteinander, was leider in deutlich schlechteren Kern-Temperaturen resultiert. Abhilfe dagegen schafft nur das Delidding (das sogenannte „Köpfen“) der CPU sowie der anschließende Austausch der Wärmeleitpaste durch... [mehr]

Intel Core i7-7700K (Kaby Lake) nun ebenfalls in Benchmark gesichtet

Logo von IMAGES/STORIES/LOGOS-2015/INTEL3

Mittlerweile sind die ersten Benchmarks zum kommenden Intel Core i7-7700K (Kaby Lake) aufgetaucht und ergänzen damit die Werte zum Core i7-7500U. Die Ergebnisse wirken durchaus sehr glaubhaft, denn sie sind in der offiziellen Datenbank von Geekbench 4 zu finden. Getestet wurde der neue Prozessor... [mehr]

AMD nennt architektonische Details zu Zen - Summit Ridge mit Broadwell-E...

Logo von IMAGES/STORIES/LOGOS-2016/AMD-ZEN

Alle Journalisten, die von Intel auf das IDF eingeladen wurden, bekamen von AMD eine Einladung für ein eigenes Event im Hotel gegenüber. Also machte sich der Tross auf den Weg, um in einer Pressekonferenz neue Details über AMDs kommende Zen-Architektur und die Prozessoren zu erfahren. Erstmals... [mehr]