Seite 2: Ivy Bridge-E im Detail

Im Vergleich zu "Ivy Bridge" und "Haswell" ist "Ivy Bridge-E" ein wahres Monster. Auf einer Fläche von 257 Quadratmillimetern (15,0 x 17,1 mm) beherbergt der Chip 1,86 Milliarden Transistoren. Einzig die Vorgänger-Generation war mit satten 2,27 Milliarden Transistoren auf 435 Quadratmillimetern größer. Die Transistoranzahl ist maßgeblich für den Stromverbrauch, denn mehr Transistoren führen unweigerlich zu einer höheren Abwärme. War "Sandy Bridge-E" noch ein Acht-Kern-Prozessor, bei dem zwei oder vier Kerne deaktiviert waren, ist "Ivy Bridge-E" nun ein reiner Sechskern-Prozessor. 

Trotzdem stellt auch "Ivy Bridge-E" an vielen Ecken und Kanten mehr oder weniger eine Verdoppelung gegenüber seiner Ursprungs-Architektur "Ivy Bridge" dar. Statt vier kann "Ivy Bridge-E" bis zu sechs Kerne beherbergen, statt maximal 8 MB Cache gibt es bis zu 15 MB und anstatt Dual-Channel-Speicher wird DDR3-Arbeitsspeicher mit bis zu vier Kanälen unterstützt. Doch man muss auch Kompromisse eingehen: Für die integrierte Grafiklösung war schlichtweg kein Platz mehr.

Ivy Bridge-E: Intel Core i7-4960X DIE-Shot
Der DIE des Intel Core i7-4960X zeigt sechs Kerne und jede Menge Cache-Speicher.

Generell lässt sich "Ivy Bridge-E" eher mit Intels Server-Plattform vergleichen, denn wie bei den älteren "Sandy Bridge-E"-Modellen oder gar den Extreme-CPUs für den inzwischen längst überholten Sockel LGA1366 besteht zwischen den Prozessoren für den Servereinsatz und für den High-End-Desktop-Markt kaum ein Unterschied. Nur die Anzahl der QPI-Links und die Validierung für den Multiprozessorbetrieb sind hier zu nennen. Aufgrund des schnelleren Speicherinterfaces, des teureren Chipsatzes und der gebotenen Cache-Größen sind die neuen "Ivy Bridge-E"-Prozessoren eher etwas für professionelle Anwendungen und Enthusiasten. Durch den Shrink und den Optimierungen an der Architektur deckt sich die Architektur aber mit den Sockel-LGA1155-Prozessoren.

ivybridge-e goressenvergleich k
Im direkten Vergleich mit "Ivy Bridge" fällt "Ivy Bridge-E" deutlich größer aus.

Turbo Boost 2.0

Mit seinen ersten Core-i7-Prozessoren führte Intel eine Technik ein, den Takt des Prozessors je nach Last einer Anwendung zu variieren und setzte hierzu die Power Control Unit ein. Um die Performance eines Sechskern-Prozessors auch bei Single-Core-Anwendungen zu verbessern, erhöht sich der Takt des betreffenden Cores automatisch. Wird hingegen keine Leistung benötigt, schalten sich die meisten Teile der CPU einfach ab, um Leistungsaufnahme und Abwärme einzusparen. Diese Prinzipien hat Intel bei seinen „Ivy Bridge-E“-Prozessoren beibehalten und ausgebaut.

Die Logik, die hinter Intels Turbo Boost steckt, ist einfach: Werden beim Prozessor nicht alle Bereiche ausgelastet, so reicht die Kühlung aus, um Teile des Prozessors mit höheren Taktraten zu versorgen, um so die Leistung zu erhöhen. Da noch immer sehr viele Anwendungen nicht für den Mehrkern-Betrieb ausgelegt sind, werden so vor allem Single-Thread-Anwendungen beschleunigt. Die einzelnen Spin-Bins hat Intel im Vergleich zu „Sandy Bridge-E“ allerdings angepasst. Als Speed-Bin wird dabei ein Multiplikator-Schritt bezeichnet. Intels Core i7-3960X kannte dabei vier verschiedene Turbo-Stufen: War der Turbo-Modus ausgeschaltet, lag der Multiplikator „33“ dauerhaft auf allen sechs Kernen an – der Takt belief sich so auf 3,3 GHz. Schaltete man Turbo Boost 2.0 jedoch an, kam es auf den Lastzustand des Prozessors an, welcher Speed-Bin maximal angelegt werden konnte. Bei Belastung von allen sechs Kernen schaltete Intel im Vergleich zum Standard-Takt drei Speed-Bins auf. Wurden hingegen nur maximal vier oder zwei Kerne belastet, gab es jeweils einen Speed-Bin oben drauf. Die CPU taktete dann mit 3,6, 3,7, 3,8 oder maximal 3,9 GHz bei Belastung zweier Kerne.

Beim Intel Core i7-4960X ist die Verteilung etwas anders: Wird lediglich ein Kern belastet, darf sich dieser auf bis zu 4,0 GHz übertakten. Werden hingegen bis zu drei Kerne gleichzeitig belastet, ist es mit einem Maximaltakt von 3,9 GHz ein Speed-Bin weniger. Bei Auslastung von bis zu vier Kernen sind 3,8 GHz und bei voller Last maximal 3,7 GHz möglich. Ohne Turbo-Boost rechnen alle sechs Kerne mit 3,6 GHz.

Auslastung Takt
5 bis 6 Kerne 3,7 GHz
4 Kerne 3,8 GHz
2 bis 3 Kerne 3,9 GHz
1 Kern 4,0 GHz
Ohne Turbo-Modus 3,6 GHz

Memory Controller

Im Vergleich zu "Sandy Bridge-E" können die Modelle der neuen Generation jetzt mit schnelleren DDR3-Speichermodulen umgehen. Waren bislang 1600 MHz möglich, sind es jetzt bis zu 1866 MHz. Auch der Quad-Channel-Betreib ist weiterhin möglich und ermöglicht damit im Gegensatz zu "Ivy Bridge" und "Haswell" deutlich höhere Speicherbandbreiten und RAM-Bestückungen. In den acht Speicherbänken zahlreicher X79-Boards können so die maximal unterstützten 64 GB Speicher voll ausgenutzt werden. Aktuell bleibt das XMP-Profil in der Version 1.3, womit schon "Sandy Bridge-E" zurechtkam. 

bmonboard3
bmonboard3

Caches und Die-Aufbau

Nominell ist beim L3-Cache im Vergleich zu "Sandy Bridge-E" kein einziges Kilobyte hinzugekommen. Auch der Intel Core i7-3960X konnte auf insgesamt 15 MB shared L3-Cache zurückgreifen. Mit „Sandy Bridge“ führte Intel den Ring-Bus-Cache ein. Schaut man auf den DIE-Shot von „Ivy Bridge-E“, kann man diese Struktur weiterhin erkennen. Ein Ring-Bus bindet weiterhin die Cores und Caches, allerdings nicht mehr den entsprechenden Grafikkern, den hat Intel zugunsten der DIE-Größe bei „Ivy Bridge-E“ nämlich ausgespart.

Die Größen für den L1- und L2-Cache sind identisch geblieben - weiterhin spendiert Intel den Kernen je 32 kB für Daten und Instruktionen sowie 256 kb L2-Cache (unified, 8-fach assozialtiv, low latency). Der L3-Cache ist auch weiterhin ein "Inklusive-Cache", besitzt also die Daten des L2- und L1-Caches, um in Idle-Zyklen die Kerne nicht aufwecken zu müssen, um an deren Daten heranzukommen. Der bei "Sandy Bridge-E" noch deaktivierte siebte und achte Kern, ist bei "Ivy Bridge-E" nun vollends verschwunden, was wohl auch daher rührt, dass "Ivy Bridge-E" mit einer Fläche von gerade einmal 257 Quadratmillimetern auskommt und damit deutlich weniger Platz als sein Vorgänger braucht. 

Ivy Bridge-E: Intel Core i7-4960X
Der 15 MB große shared L3-Cache des Intel Core i7-4960X ist vom Speichercontroller, den insgesamt sechs Rechenkernen und den Uncore-Bereich sowie den I/Os umgeben.

Intels 22-nm-Transistoren mit Tri-Gate-Technik

Mit der Einführung der 22-nm-Transistoren verändert man aber die Struktur der Transistoren selber.

Als Beispiel zeigte Bohr auf dem Intel Developer Forum 2011 eine Grafik für 22-nm-Transistoren mit unterschiedlichen Drive Current/Leakage-Werten – je nach Anwendungsbereich. Benötigt man einen schnellen Prozessor, muss man auch eine höhere Leakage in Kauf nehmen, kann aber auf der anderen Seite bei einer niedrigen Leakage eine höhere Performance erreichen. Im Endeffekt ist es also möglich, je nach den Anwendungsbereichen des fertigen Chips eine passende Prozessortechnik einzusetzen (High Performance, Standard Performance, Low Power).

trigate-performance

Bohr führte die Hauptvorteile der 22-nm-Tri-Gate-Fertigung an:

  • es besteht ein deutlicher Leakage-Vorteil aufgrund der Fully-Depleted-Gates. Bei geringerer Spannung schaltet der Transistor schneller ab und hat deshalb eine deutlich geringere Off-State-Leakage.
  • Bei High-Performance-Optimierung kann bei gleicher Off-State-Leakage wie bei einem Planar-Transistor eine deutlich höhere Schaltgeschwindigkeit erreicht werden.
  • Insgesamt kann der Tri-Gate-Transistor eine 37% schnellere Geschwindigkeit bei 0,7 V Spannung haben – oder umgekehrt eine um 50% niedrigere Active Power.
  • Wird eine höhere Performance benötigt, ist es dem Designer möglich, mehrere Fins zusammenzuschließen, um eine höhere Performance zu erreichen.

trigate-small

Den Aufbau der Transistoren kann man im obigen Bild schön sehen: Das Gate "umschließt" den Transistor besser und verhindert so das Durchsickern von Strömen.

Intel setzt für Ivy Bridge und Haswell den P1270-Prozess für die 22-nm-Prozessoren ein. Im Jahr 2013 steht allerdings schon der P1272 genannte Prozess mit 14 nm ins Haus. Auf SOC-Seite sind die Prozesse P1271 und P1273 für Low-Power optimiert, der 14-nm-Prozess ist ebenso für 2013 geplant. Herstellen wird Intel Haswell in insgesamt fünf Fabriken, die auf den 22-nm-Prozess umgerüstet sind. Neben den Fabriken in Oregon werden auch die beiden Fabriken in Arizona die Prozessoren herstellen. Hinzu kommt die Fabrik in Israel. 

Intel wird die 22-nm-Technik sowohl für die klassischen Prozessoren (Core, Xeon,...) wie auch für die SoC-Produkte einsetzen (Atom, etc.). Intel optimiert dabei auch die bestehenden Designs auf die neuen Tri-Gate-Prozessoren. Intel sieht hier einen Vorteil im Zusammenlegen der Design-Teams und fährt deshalb einen „Unified Design Approach“ und legt die bisherigen Teams (SoC, CPUs) zusammen, um besser und schneller auf neue Marktbereiche reagieren zu können.

In einer Galerie zu dem Thema haben wir Intels Folien zum Thema 22-nm-Technik hinterlegt: