16 Kerne: Performance-Check mit ASUS Z9PE-D8 WS

Veröffentlicht am: von

logoWenn Geld keine Rolle spielt, kann man sich tolle Sachen zusammenbauen: Intels Sandy-Bridge-E-Serie gibt es auch als Xeon-Prozessoren mit acht Kernen pro CPU-Sockel. Mit Hyperthreading stehen einem somit hier bereits 16 Threads zur Verfügung. Ein solcher Xeon E5-2687W kostet momentan knapp 1600 Euro. Mit einem ASUS Z9PE-D8 WS kann man aber auch zwei dieser CPUs gemeinsam einsetzen. Dann kommt man logischweise auf 16 Kerne mit 32 Threads. Das eigentlich für den Server-Bereich gedachte Setup bringt ASUS so in den Workstation-Bereich. Wir haben die Luxuskiste zusammengeschraubt und prüfen, was 16 Kerne heutzutage leisten.

Zunächst einmal sollte klar sein, dass das Kit bestehend aus zwei CPUs und dem 450 Euro teuren Z9PE-D8 WS noch nicht das einzige ist, wofür man Geld lassen muss: Um die Prozessoren mit optimaler Speicherbandbreite betreiben zu können, bedarf es vier Speicherriegel pro CPU, da die E5-2687W je vier Speicherkanäle ansprechen können. Acht Speichersticks kommen also zusätzlich noch auf die Einkaufsliste - selbst wenn man günstige 4-GB-Module nimmt, liegt man so schon bei einem Speicherausbau von 32 GB (beispeilsweise zwei 16-GB-Kits G.Skill Ripjaws Z). Und letztendlich muss auch mindestens ein Xeon-kompatibles Netzteil an den Start, was zwei 8-pol. EPS-Stecker mitbringt. Möchte man hier auch noch Gold- oder Platin-Effizienz und eine entsprechend ausreichende Wattzahl, liegt man z.B. beim be quiet! Dark Power Pro P9 850W auch schon bei 170 Euro.

Die Minimalkonfiguration liegt also schnell bei 4.200 Euro - und hier sind weder ein Gehäuse, noch eine Grafikkarte, noch Storage-Komponenten oder Kühlkörper enthalten.

aufmacher
Monster-Setup: Das dicke ASUS-Brett passt mit den großen
Kühlkörpern auch nur noch in große E-ATX-Gehäuse.

Das Luxussystem wird trotz allem nicht das schnellste in allen Bereichen werden: Schon bei früheren Extrem-System-Zusammenstellungen, wie unserem 10.000-Euro-PC im letzten Jahr oder bei Tests wie dem Intel Core i7-3960X, ist zu sehen, dass "mehr" Kerne nicht immer zu einer höheren Leistung führen. Die Kerne des Core i7-3770K beispielsweise sind durch Intels Turbo-Modus unter Last sehr viel schneller getaktet als beim E5-2687W. Entsprechend werden Anwendungen, die nicht alle Kerne nutzen, auf dem Core i7-3770K teilweise deutlich schneller laufen. In der Vergangenheit zeigten sich einige Tools, die nicht auf Multithreading ausgerichtet sind, aber auch Spiele als Multi-Core-Muffel. Wer also hauptsächlich derartige Anwendungen verwendet, wird an der 4.200-Euro-Basisausstattung weniger Freude haben als an einem gut ausgestatteten 800-Euro-Standard-Setup.

Auch einige weitere Nachteile liegen auf der Hand: Man ist in der Auswahl des Gehäuses eingeschränkt, durch mehrere CPUs wird das System mehr verbrauchen und letztendlich auch aufwändiger zu kühlen sein. Auf der anderen Seite steht dort aber der ultimative Performance-Gewinn als Idee hinter einem derartigen Über-System: Wenn alle 16 Kerne und 32 Threads arbeiten, könnte das System bis zu viermal schneller sein als ein normaler Quad-Core-Rechner.

Windows Taskmanager 16 Core
So geht's richtig ab: Wenn alle Threads voll genutzt werden,
dreht das Dual-Xeon-System richtig auf.

Auf den nächsten Seiten stellen wir zunächst die Komponenten vor: Zum einen Intels Xeon-Prozessoren, zum anderen ASUS' Z9PE-D8 WS. In der restlichen Wahl der Komponenten ist man - mit Kompatibilitätseinschränkungen - frei. Im Anschluss jagen wir die Komponenten durch unseren CPU-Testparcours.


Intels Sandy-Bridge-E-Prozessoren liegen irgendwo zwischen den Welten: Zum einen sind die Kerne noch reine Sandy-Bridge-Kerne, zum anderen sind die Sockel-2011-Modelle aber Intels aktuelles Flagschiff, trotz der Vorstellung der Ivy-Bridge-Platform. So liegt im Desktop-Bereich der Core i7-3960X preislich an der Spitze, wobei er als Sechskerner zwei Kerne mehr bietet als Intels aktuelles Ivy-Bridge-Topmodell Core i7-3770K. Dieser Prozessor basiert zwar auf der moderneren Fertigungstechnik, aber ist maximal als Quad-Core-Modell verfügbar.

Intels Xeon-Modelle der E5-Serie sollte eigentlich schon viel früher auf den Markt kommen - und die Ablösung aus dem Ivy-Bridge-Lager sollte auch schneller vonstatten gehen. Durch Fertigungsprobleme bei den Achtkern-Modellen gibt es nun aber die Zwitter-Lösung, dass Intel im Mainstream-Desktop-Markt zwar die fortschrittlicheren Ivy-Bridge-Modelle anbietet, im High-End- und Server-Markt aber noch die Sandy-Bridge-Varianten verkauft werden. Zumindest von der Performance her macht das aber keinen Unterschied, da Ivy Bridge nur minimal schneller ist und die Onboard-Grafik im Serverbereich sowieso nicht Verwendung findet.

Der Xeon E5-2687W ist dem von uns getesteten Core i7-3960X sehr ähnlich - wenn man diesem zwei Kerne mehr verpassen würde. Die nicht ganz so offensichtlichen Veränderungen liegen in der Anzahl der QPI-Busse, denn die E5-Xeons besitzen zwei Anschlüsse, sodass sie im Dual-Betrieb arbeiten können. Der Core i7-3960X besitzt nur ein QPI-Interface und ist deshalb auf den Einzelbetrieb beschränkt. Neben diesem Unterschied setzt Intel bei der Xeon-Variante auch auf einen eigenen Chipsatz. Der X79 kommt hier nicht zum Einsatz, sondern die für den Serverbereich optimierte Variante C602. Der ebenso unter dem Codenamen Patsburg entwickelte Chipsatz besitzt fast dieselben Features. In einem direkten Vergleich kann man schön sehen, dass die Unterschiede im Detail liegen:

Vergleich X79 / C602
ChipsatzX79C602
Einführungsdatum Q4 2011 Q1 2012
Lithographie 65 nm 65 nm
Packaging 27 x 27 mm 27 x 27 mm
Max. TDP 7,8 Watt 8 Watt
PCI-Express-Konfigurationen 8x1, 4x1 & 1x4, 8 Ports 2x4, 4x2, 8x1, 8 Ports
Anzahl der SATA-Ports 6 (davon 2 SATA 6G) 10 (davon 2 SATA 6G)
Maximale CPU-Konfiguration 1 -
Intel Trusted-Execution-Technik nein ja
Intel vPro Technik nein ja
Intel Active-Management-Technik nein ja
Intel AMT-Version nein ja
Intel Rapid-Storage-Technik ja nein

Im Endeffekt beschränkten sich die Unterschiede auf die Management-Features, die beim C602 auf den Profibereich ausgerichtet sind und beim X79 eher auf den Desktop-Betrieb sowie die Konfiguration der PCIe-Lanes, die beim X79 nur in Desktop-Konfigurationen verbaut werden können, beim C602 aber auch in Server-üblichen 2x PCIe 2.0 x4. Dass der C602 dann noch vier SATA-3G-Ports mehr kann, ist wohl eher Makulatur.

Der Prozessor selber ist wie der Core i7-3960X aufgebaut - die beiden zusätzlichen Kerne sind beim Core i7-3960X abgeschaltet: Mit 2,27 Milliarden Transistoren und 435 mm² ist Sandy-Bridge-E ein richtiges Transistoren-Monster, wobei sehr viel Fläche durch den 20 MB großen Cache eingenommen wird. Hier besitzt der Xeon E5-2687W 5 MB mehr als der Core i7-3960X:

 

Core i7-3960X Die Shot
Core i7-3960X und Xeon E5-2687W ähneln sich:
Der Xeon hat zwei Kerne und 5 MB Cache mehr.

Der Intel Xeon E5-2687W ist dabei eines der Xeon-Topmodelle für Dual-Sockel-Systeme, ist mit 3,1 GHz Standardtakt und bis zu 3,8 GHz Turbo-Takt auch extrem schnell unterwegs, verbraucht allerdings auch etwas mehr Strom: Er ist mit seiner 32-nm-Herstellungstechnik bei bis zu 150 Watt TDP einer der höchsteingestuften Intel-Prozessoren. Durch entsprechende Stromsparfunktionen im Idle-Betrieb werden sich die Kerne aber im Zaum halten beim "Energieverschwenden" im Idle-Betrieb - und unter Last dürfen sie letztendlich auch Strom verbrauchen, wenn sie entsprechend schnell rechnen.

16 Kerne mit CPU-Z
CPU-Z zeigt, dass sich die acht Kerne im Idle-Betrieb
auf 1,2 GHz herabtakten können.

Optisch ist das ASUS-Mainboard natürlich auf den ersten Blick schon ein Brecher. Mit Abmessungen von 12" x 13" kommt es im eindrucksvollen EEB Form Factor daher. Um es einbauen zu können, braucht man also auch ein entsprechend großes Gehäuse. Während es in der Länge von oben zum letzten PCIe-Slot noch normale Größe hat, ist insbesondere die Breite des Gehäuses entscheidend.

Immerhin lassen sich große Kühlkörper ohne Probleme auf dem Mainboard einsetzen, allerdings sollten sie auch nicht zu groß sein: Die abgebildeten Dark Rock 2 von be quiet!, die wir für den Test eingesetzt haben, lassen sich nicht ohne weiteres nutzen. Verwendet man DDR3-Module ohne Heatspreader so mag der Dark Rock 2 auf CPU2 noch zu montieren sein. Mit einem DDR3-Modul mit Heatspreader wie in unserem Fall biegt sich die Dimm-Bank leicht nach außen. Für den Test mag dies noch funktionieren, für den Dauereinsatz ist das nicht empfehlenswert. Dasselbe Problem hat man mit der Grafikkarte in PCIe-Slot 1: Auch hier stößt der Kühler an. Hier hätte man die Möglichkeit, statt des ersten Slots einfach PCIe-Slot 3 zu wählen - wenn man allerdings Multi-GPU-Konfigurationen einsetzen möchte, sollte es wiederum ein kleinerer Kühler sein. Die Maße 138 x 166 x 97 mm (B x H x T) für den Dark Rock 2 sollten also das Maximum sein, wobei man lieber etwas kleinere Kühlkörper auswählen sollte.

In einer Galerie haben wir die Fotos des eindrucksvollen Boards zusammengefasst:

{jphoto image=24388}

Die Ausstattung des als Workstation-Plattform vermarkteten Mainboards haben wir in der folgenden Tabelle zusammengefasst:

Die Daten des ASUS Z9PE-D8 WS in der Übersicht
Hersteller und
Bezeichnung
ASUS
Z9PE-D8 WS
Straßenpreis ca. 450€
Homepage www.asus.de
Northbridge-/CPU-Features
Chipsatz Intel C602 Chipsatz
Speicherbänke und Typ 8x DDR3 (2x Quad-Channel)
Speicherausbau max. 64 GB (mit 8-GB-Dimms, ECC, non ECC, unbuffered)
SLI / CrossFire CrossFireX, SLI (2-Way, 3-Way, 4 Way)
Onboard-Features
PCI-Express 4x PCIe 3.0 x16 (x16/x16 oder x8/x8/x8/x8)
2x PCIe 3.0 x16 (jeweils x16)
1x PCIe 3.0 x16 (x8)
PCI -
Serial-ATA-, SAS- und 
ATA-Controller
2x SATA 6G und 8x SATA 3G mit RAID 0, 1, 5, 10 über Intel C602,
4x SATA 6G über Marvell 9230 Controller (PCIe), RAID 0, 1, 10 (Windows)
USB 12x USB 2.0 (6x am I/O-Panel, 6x über Header, 2x "Quick Gate" USB-Ports)
4x USB 3.0 über ASMedia ASM 1042 (2x am I/O-Panel, 2x über Header)
Grafikschnittstellen -
Remote Management Aspeed AST2300
Firewire VIA VT6315N 400 MBit/s (2x über Header)
LAN 2x Intel 82574L Gigabit LAN
Audio Realtek ALC 898 High Definition Audio (Content Protection Support)
analoge, digitale und optische Ports

Interessant ist, dass ASUS hier sieben PCIe-x16-Slots auf das Board setzt. Dabei teilen sich die Slots 1 und 2 sowie die Slots 3 und 4 jeweils 16 PCIe-Lanes. Werden Karten in beide Slots eingesetzt, laufen die Slots nur in einer x8-Bestückung, ein ASM 1480 PCIe-3.0-Switch übernimmt die Teilung. Slot 6 ist hingegen ein reiner x8-Slot, der physikalisch als x16-Port ausgeführt wurde. Die Slots 5 und 7 laufen immer mit 16 Lanes. Möchte man also eine Quad-SLI- oder CrossFireX-Lösung einbauen, sollte man die Slots 1, 3, 5 und 7 verwenden, um alle Karten mit 16 Lanes zu betreiben.

Insgesamt hat man somit 72 PCIe-Lanes in der neuen PCIe-3.0-Spezifikation zur Verfügung - das ist eine gehörige Bandbreite, die hier zustande kommt. Zusatzchips als Bridges oder ähnliches müssen allerdings nicht verwendet werden, da zwei CPUs zum Einsatz kommen: Die Slots 1-4 gehören zur CPU 1, die Slots 5-7 zur CPU 2. Entsprechend läuft die Kommunikation im Quad-SLI über den QPI-Bus und nicht direkt. Da im Dual-CPU-Betrieb zwei QPI-Links zur Verfügung stehen, sollte die Bandbreite aber vollkommen ausreichen.

Sämtliche Onboard-Komponenten werden hingegen über den C602-Chipsatz angebunden. Dieser besitzt acht PCIe-2.0-Lanes, die ASUS für die ASMedia-USB3.0-Chips, den VIA-Firewire-Controller, die LAN-Ports und den Marvell-Controller verwendet. Weiterhin wird der Remote-Management-Chip von Aspeed darüber angesteuert. Alle acht Lanes sind also in Verwendung. Sehr gut finden wir den Einsatz des neuen Marvell 9230-Controllers, der als SATA-6G-Port mit PCIe-2.0-x2-Anbindung die SATA-6G-Performance im RAID 0 über vier Drives auch tatsächlich darstellen kann und die Geräte nicht unnötig ausbremst. Spannend ist auch die Tatsache, dass man für den Intel-Controller auswählen kann, ob man die Rapid-Storage-Engine verwenden will oder LSIs MegaRAID.

Bei den acht Speichersteckplätzen ist zu beachten, dass zunächst mindestens der Dimm A0 der 1. CPU bestückt werden muss - ansonsten startet das Board nicht. Dann kann paarweise aufgestockt werden, bis zur Vollbestückung, die hier allerdings nur bedeutet, dass auch pro CPU im Quad-Channel-Betrieb gefahren werden kann. ASUS verwendet hier nur Unbuffered-Dimms, was aber auch kein Problem ist, da mit je einem Speichersteckplatz pro Kanal keine Schwierigkeiten auftauchen können.

Weiterhin vorhanden sind auf dem Mainboard Power- und Reset-Schalter, ein Debug-LED, insgesamt acht 4-Pin-FAN-Header, ein 24-poliger ATX-Stromanschluss und zwei 8-Pin-EPS12V-Stecker für die CPU- und RAM-Versorgung. Diese müssen auch beide bestückt werden, damit das Mainboard bootet. Hinzu kommt ein Molex-Anschluss als optionale Versorgung für die PCIe-Slots, die letztendlich pro Slot auch maximal 75W Leistung bereitstellen müssten. Für die RAM-Module hat ASUS zudem LEDs eingebaut, die bei einem Error aufleuchten und somit RAM-Probleme einfach lokalisierbar machen. Wenn man das Board doch in einem Server einsetzen möchte, könnte man an die beiden internen USB2.0-Ports beispielsweise einen USB-Stick für VMWare stecken, von dem gebootet werden kann. Die beiden internen USB-Ports, die nicht als Header ausgeführt worden sind, nennt ASUS "Quick Gate".

Auf der I/O-Blende befinden sich sechs USB2.0-Ports, zudem zwei USB3.0-Ports. Die restlichen USB-Ports sind als Header ausgeführt und können somit an die Gehäuse-Front gelegt werden. Weiterhin sind zwei Gigabit-Ports vorhanden, ein geteilter PS/2 und die analogen, digitalen und optischen Audio-Anschlüsse.

Lieferumfang:

Der Lieferumfang des Boards ist für ein Workstation-Board wirklich sehr gut - allenfalls eine USB3.0-Slotblende wäre vielleicht noch wünschenswert gewesen. Das Bios und die Konfiguration des Boards folgt auf der nächsten Seite.


Leider - und das muss man so sagen - stammt das AMI-Bios von einem anderen Entwicklerteam innerhalb ASUS, sodass hier nicht die gewohnte Oberfläche aktueller Z77- und X79-Boards zu finden ist, sondern eine etwas angestaubte Biosversion. Wir verwendeten in unserem Test zunächst die Biosversion 0405, die vom 19. März stammt. Just nach Fertigstellung des Tests spendierte ASUS dem Board eine neue Version 0503 (17. Mai 2012), die im Download-Bereich von ASUS zu finden ist. Entsprechend sind die Fotos, die wir eingebunden haben, nicht ganz aktuell - die Tests haben wir mit der neuen Version aber erneut durchgeführt, um Veränderungen auf den Grund zu gehen.

{jphoto image=24430}

Wie man sehen kann, besitzt das Board sogar einige Overclocking-Funktionen. Zum einen kann der Multiplikator der CPU eingestellt werden, zum anderen auch die Base Clock Rate. Beides führte bei uns allerdings nicht zu einem Overclocking-Erfolg. Das liegt zum einen an den Fähigkeiten der Xeon-Prozessoren, die keinen offenen Multiplikator besitzen und somit nur mit einem niedrigeren Multiplikator gefahren werden können, zum anderen aber auch am QPI-Bus, der schon bei vergangenen Dual-Boards immer wieder zu Problemen beim Overclocking geführt hat. So wurde das System mit einer Base Clock Rate von 103 MHz schon instabil und die Performance sackte bereits bei leichten Erhöhungen ab. Ein Overclocking macht mit dem System also technisch keinen Sinn.

Trotz der etwas angestaubten Bios-Oberfläche sind die gebotenen Features sehr gut. So finden sich sämtliche Stromspartechniken im Bios, eine Lüftersteuerung ist enthalten, ein ausführliches Hardwaremonitoring, die Onboard-Geräte können konfiguriert werden und es ist auch möglich sämtliche Einstellungen bezüglich des I/O-Subsystems zuverlässig einzustellen. Dimm-Timings und Frequenzen sind dabei ebenso regelbar. Auf ein paar keinere Probleme sind wir trotzdem gestoßen: So war das Package C State Limit nicht eingestellt, man verschenkt so im Idle-Betrieb ein paar Watt Stromsparpotential, und die integrierte Lüftersteuerung ist leider auch nicht mehr als an- oder abzustellen. Zudem fehlen praktische Funktionen wie das Speichern von mehreren Bios-Einstellungen völlig. Zumindest lassen sich zukünftige Bios-Updates mit EZ Update 2 direkt von einem USB-Stick oder Datenträger laden und updaten.

Konfiguration:

Im Endeffekt konnte man bei dem verwendeten ASUS-Bios also alles auf "default" belassen. Wir veränderten allerdings den Speichertakt auf "Force 1600 MHz", um mit Quad-Channel-Betrieb und schnellsten Frequenzen arbeiten zu können. Zudem setzten wir das C State Limit auf "no limit", um den maximalen Stromspareffekt im Idle-Betrieb zu erreichen. Ansonsten blieb das Board mit den Ausgangssettings konfiguriert.


Unser Testsystem für diesen 16-Core-Check sieht folgendermaßen aus:

Wir setzten jeweils die aktuellsten Software- und Treiberreleases ein, die wir finden konnten.

{jphoto image=24422}

Der Zusammenbau gestaltete sich gerade bezüglich der Kühlkörper etwas fummelig. Wie bereits beschrieben drückt der Dark-Rock-2-Kühlkörper auf CPU2 sowohl den Speicherriegel im Slot "Dimm D1" nach außen, da ASUS zwischen dem CPU-Sockel und den Dimm-Slots auf dieser Seite knapp 3-4mm weniger Platz gelassen hat als an den anderen Stellen des Boards. Zudem sitzt die CPU2 einen halben Zentimeter tiefer auf dem Board, sodass die Radeon HD 7970 mit der Rückseite auf dem Kühler aufliegt. Um keinen Kurzschluss zu verursachen, haben wir hier einen Isolator zwischengesetzt. Für unser finales System werden wir uns aber einen anderen optimaleren Weg wählen - für die Leistungstests reicht aber diese Bastellösung.

Da wir dieselbe Grundlage gewählt haben wie in unseren letzten CPU-Tests, können wir die Leistungswerte vergleichen. Trotzdem gibt es eine Reihe Unterschiede, auf die wir hinweisen möchten:

Die Testsysteme der Vergleichssysteme haben wir in unserem Core i7-3770K-Review ausführlich dokumentiert.

Beginnen wir mit dem Stromverbrauch der Prozessoren:

 

Messungen des Stromverbrauchs (Gesamtsystem):

Unter Last wurden von uns folgende Leistungswerte ermittelt:

Leistungsaufnahme Last-Betrieb

bmstromverbrauchlast
Verbrauch in Watt (Gesamtsystem)

Im Idle-Betrieb verbrauchen die Prozessoren deutlich weniger:

Leistungsaufnahme Idle-Betrieb

bmstromverbrauchidle
Verbrauch in Watt (Gesamtsystem)

Klare Sache: Setzt man zwei CPUs ein und verwendet dazu noch ein Mainboard mit einem Chipsatz aus dem Server-Bereich, so wird man keinen Stromsparkönig erhalten. Mit 131,5 Watt im Idlebetrieb verbraucht das Gesamtsystem somit auch mal eben das Doppelte eines normalen Desktop-Systems. Unter Last sind es ebenso recht genau 100% Aufschlag gegenüber einem einzelnen Prozessor. Das ist also kein gutes Ergebnis, sondern nur ein akzeptables: Wenn die Prozessoren mit entsprechend Dampf rechnen, ist der hohe Lastverbrauch unter Performance-pro-Watt-Kriterien noch zu erklären. Der hohe Idle-Verbrauch ist aber in der Tat schade.


Wir beginnen mit einigen synthetischen CPU-Benchmarks:

Sisoftware Sisoft Sandra Memory Benchmark

bmmemory
Leistung in GB/s

Die Speicherbandbreite ist in erster Linie abhängig von den bereitgestellten Kanälen und dem Takt. Entsprechend liegen die Vier-Kanal-Modelle ganz vorne - und da unser neues Über-System zwei dieser Vierkanal-Speicherkanäle besitzt, kann es sich deutlich distanzieren. Mit über 78 GB/s bricht es klar den bislang gemessenen Rekord.

SuperPi 1.5 XS, 8M

bmsuperpi
Leistung in Sekunden (weniger ist besser)

SuperPi greift nur auf einen einzigen Kern zurück, weshalb die Vier-, Sechs- und Achtkern-Modelle hier keinen Vorteil haben und auch Hyperthreading nichts bringt. Hier zählt also nur der reine Takt - und eventuelle Architektur-Vorteile.

wPrime 2.09 1024M

bmwprime
Performance in Sekunden (weniger ist besser)

wPrime lassen wir mit 1024M berechnen - hier kommen alle Kerne zum Einsatz. Entsprechend liegt der Xeon E5-2687W mit 16 Threads weit vorne und im Dual-Gespann halbiert sich die Rechenzeit noch einmal. Das Dual-Board rechnet sogar noch ein Stückchen schneller, wohl wegen der hohen Speicherbandbreite.


TrueCrypt 7.1a 50 MB

bmtruecrypt
Performance in MB/s

TrueCrypt setzen wir in der neuesten Version ein, wenn ein Prozessor AES-NI unterstützt, hat er also einen Vorteil. Im AES-Twofish-Serpent liegt das Dual-Gespann wieder klar an der Spitze. Die beiden Xeon E5-2687W können ihren Workload ideal aufteilen.


Wir starten mit den Anwendungs-Benchmarks:

Cinebench xCPU 11.5

bmcinebench
Performance in Cinebench-Punkten

Im Multi-CPU-Bereich des Benchmarks liegen die Prozessoren mit mehr Kernen vorne. Ein Wahnsinns-Ergebnis für den E5-2687W im Dual-Betrieb.

Frybench

bmfrybench
Leistung in Sekunden (weniger ist besser)

Frybench ist derselbe Typ von Benchmark - und zeigt deshalb auch ähnliche Resultate, wenn auch nicht ganz so extrem.

TMPGenc4.0 mit DivX (720p HD)

bmtmpgenc
Leistung in Sekunden (weniger ist besser)

Der Problem-Benchmark Nr. 1: Da TMPGenc4.0 wohl mit 16 CPUs oder 32 Threads nichts anfangen kann, startet er erst gar nicht und bleibt mit einer Fehlermeldung stehen. Damit man TMPGenc 4.0 einsetzen kann, muss also erst ein Patch vom Softwareentwickler folgen.

x264 HD Benchmark

bmx24
Leistung in Sekunden (weniger ist besser)

Diese Ergebnisse sollten sich eigentlich auch bei TMPGEnc zeigen: Der E5 im Dualgespann mal wieder in Führung, wenn auch nicht mit einer Verdoppelung der Leistung.


Weiter geht es mit iTunes:

iTunes 10.6.1 ACC Konvertierung

bmitunes
Leistung in Sekunden (weniger ist besser)

Dieses Programm wird sicherlich von vielen Lesern genutzt, ist aber leider recht schlecht programmiert, was die Umwandlung der Files in das ACC-Format angeht: Multi-Core-CPUs bringen hier leider nichts. So ist der CPU-Takt oftmals entscheidend, die beiden Xeons liegen nur leicht aufgrund der Speicherbandbreite vorne.

WinRAR 4.11 (integrierter Benchmark)

bmwinrar
Leistung in MIPS

Bei Winrar sieht man schön, dass der Benchmark nur mit maximal 16 Kernen/Threads zu betreiben ist. Im Desktop-Bereich liegen der AMD Bulldozer und Intels Core i7-3960X vorne, im Dualgespann liefert der E5-2687W allerings kaum Mehrperformance zum Einzelbetrieb. Der Benchmark läuft hier weiterhin nur mit 16 Threads.

 

7Zip 32 MB

bm7zip
Leistung in MIPS

Der Kompressions-Benchmark von 7Zip schießt in dieselbe Richtung und kommt deshalb auf annähernd identische Ergebnisse wie WinRAR für alle CPUs.

PCMark 7

bm7zip
Leistung in Futuremark-Punkten

Problembenchmark Nr. 2: Statt den PCMark 7 zu starten, wartet Futuremarks Benchmark auf irgendetwas - bis er schließlich abstürzt. Auch hier muss ein Patch folgen, damit man PCMark 7 mit der entsprechenden Kern-Konfiguration durchlaufen lassen kann.


Weiter geht es mit diversen Spielen, von denen wir uns Anno 2070 und Metro 2033 zur Visualisierung ausgesucht haben - und natürlich dem 3DMark 2011:

3DMark 2011

Auch die neueste Generation des 3DMark wollen wir mit in den Benchmark-Parcour aufnehmen. Beim 3DMark 11 handelt es sich um den ersten vollständigen DirectX-11-Benchmark aus dem Hause Futuremark. Aus diesem Grund macht er auch ausgiebig Gebrauch von Tessellation, Depth of Field, Volumetric Lighting und Direct Compute. Obligatorisch ist natürlich auch die Unterstützung für Multi-Core-Prozessoren mit mehr als vier Kernen. Der Download ist in unserer Download-Area möglich.

3dmark11_2_rs 3dmark11_1_rs
3dmark11_4_rs 3dmark11_3_rs

Zum kostenlosen Download von Futuremarks 3DMark 11 gelangt man über diesen Link.

bm3dmark2011
Leistung in Futuremark-Punkten

Kein Rekord für das 32-Threads-Setup? In der Tat nicht, denn das System sackt auf einen Mittelwert ab. Auch dies ist wohl nur mit einem Problem in der Benchmark-Konfiguration zu erklären. In der Vergangenheit konnten wir mit einem Dual-Setup beispielsweise schon nur mit 12 Threads Rekordwerte erreichen, mit 16 Threads startete das Programm gar nicht. Eine derartige Grenze scheint es jetzt auch mit 16 Kernen / 32 Threads zu geben. Wir warten also auf einen Patch.

 

Anno 2070

Anno 2070 spielt entgegen seiner vier Vorgänger nicht mehr in der Vergangenheit sondern knapp 60 Jahre in der Zukunft. Das Spielprinzip blieb grundsätzlich gleich, das heißt fremde Inseln erkunden, besiedeln, Wirtschaftskreisläufe aufbauen, um die Bedürfnisse der unterschiedlichen Bevölkerungsteile zu befriedigen, und sich in der Diplomatie üben. Neu sind die drei Fraktionen: Die Ecos setzen auf regenerative Energie und erhalten die Natur, während ihr Gegenpart, die Tycoons, durch Schwerindustrie die Umwelt verschmutzen. Die dritte Fraktion, die Techs, ermöglicht es, neue Techniken zu nutzen und auf dem Meeresboden zu siedeln. Die großen Inseln, die lebendige Flora und Fauna und die fantastischen Wassereffekte der eigens von Related Designs entwickelten Engine (DX11) verlangen auf der höchsten Detailstufe der Grafikkarte einiges ab.

 
 

Zur Vollversion von Anno 2070 in unserem Preisvergleich gelangt man über diesen Link.

Anno 2070, 1920x1080, 4xAA, high

bmanno1
Leistung in Frames pro Sekunde (fps)

Anno 2070, 1024x768, kein AA, niedrig

bmanno2
Leistung in Frames pro Sekunde (fps)

Derartige Ergebnisse gibt es bei allen Gaming-Benchmarks zu sehen: Wenn die Grafikkarte limitiert, liegt das Xeon-System auf einem Niveau mit den anderen Systemen. Ohne diese GPU-Last fällt es aber zurück. Hier können zum einen die Spiele die vielen Kerne nicht ausnutzen und profitieren demnach nicht von ihnen, zum anderen liegt bei vielen Spielen auch nahe, dass die Thread-Aufteilung auf den 32-Threads dann zum Problem wird und das Spiel deshalb eher langsamer läuft.

 

Metro 2033

Eine unwirtliche und verstrahlte Umwelt, Mutanten und ständige Bedrohungen - all diese Elemente nutzen die Ex-S.T.A.L.K.E.R. Entwickler 4A Games Studios, um den Spieler in die Welt von Metro 2033 zu entführen. Im Jahr 2033 hat sich die Menschheit mal wieder bekriegt und durch einen Atomschlag gegenseitig fast in die Luft gebombt. Eine Hand voll Überlebende hat sich in die Systeme der Moskauer U-Bahn zurückgezogen, um dort Zuflucht zu suchen. Zum Leidwesen der Flüchtlinge ist dieser Ort nicht ihre alleinige Heimat, auch feindselige Kreaturen, die sich an die giftige Atmosphäre gewöhnt haben, sind dort anzutreffen. Ihr Ziel: die verbleibenden Menschen ausrotten! Ob sie nun rohe Gewalt oder ausgeklügelte Taktik anwenden, es bleibt ihnen überlassen, wie sie das Ziel erreichen. Wie schon bei ihrem Erstlingswerk schaffen die Entwickler eine Wahnsinnsatmosphäre und lassen mit der A4-Engine (DX11) selbst moderne Grafikkarten an ihre Grenzen kommen.

Metro_1_rs Metro_2_rs
Metro_3_rs Metro_4_rs

Zur Vollversion von Metro 2033 in unserem Preisvergleich gelangt man über diesen Link.

Metro 2033, 1920x1080, 4xAA, high, DX11

bmanno1
Leistung in Frames pro Sekunde (fps)

Metro 2033, 1024x768, low, DX9

bmmetro2
Leistung in Frames pro Sekunde (fps)

Auch bei Metro ist der Effekt zu sehen, dass das Workstation-System eher zurückfällt.


Wie erwartet gibt es schnellere Systeme, wenn man spielen möchte: Für einen Gamer mag es interessanter sein, auf einen Core i7-3770K zu setzen, diesen möglichst weit zu übertakten und eine Grafikkarte wie die GeForce GTX 690 einzusetzen. Wenn man etwas mehr Geld ausgeben kann, wird man sicherlich auch mit einem Core i7-3960X, einem X79-Board und zwei GeForce-GTX-690-Karten mehr Glück haben. Und günstiger fährt man mit so einer Kombination auch noch.

In anderen Bereichen räumt das 16-Kern-Gespann aber alles ab. Mit Programmen, die so weit Multithreading unterstützen, dass alle Kerne genutzt werden können, haben andere Prozessoren keine Chance - dann liegt das Dual-Gespann sogar fast um den Faktor zwei vor einem einzelnen Xeon E5-2687W. Allerdings sind diese Programme spärlich gesät, die meisten können mit vier oder acht Kernen noch etwas anfangen, darüber dann nicht mehr. Selbst dann könnte man aber mit einem 16-Kern-Gespann noch einen Vorteil haben, wenn man mehrere dieser Programme gleichzeitig unter Last setzt. Allerdings wird es wohl selten vorkommen, dass man gleichzeitig ein Video komprimiert, ein paar Dateien komprimiert, Musik abspielt, Suchfunktionen und andere Anwendungen in einem Atemzug laufen lässt.

Cinebench
Cooler Screenshot: Wenn alle Kerne rechnen, ist das Xeon-Setup
richtig schnell. Gut zu visualisieren ist das mit
Benchmarks wie Cinebench 11.

Interessant ist natürlich ein Blick auf die Effizienz. Hier kann der Prozessor ebenso nur dann überzeugen, wenn er vollständig unter Last ist. Insofern rundet sich das Bild ab: Wer - entweder aus professionellen Gründen oder aus sonstigen Motiven - tatsächlich die bereitgestellte Multicore-Leistung nutzen kann und entsprechende Programme einsetzt, wird mit dem Dual-E5-2687W-Setup seinen Spaß haben. Dann muss nur noch der Preis ins Verhältnis gesetzt werden, wobei sicherlich die Wichtigkeit der Aufgaben eine entscheidende Komponente ist. Wenn durch das schnellere Fertigstellen von Berechnungen tatsächlich ein wirtschaftlicher Nutzen gezogen werden kann, wird auch der Anschaffungspreis von je 1600 Euro pro CPU nicht wirklich eine Rolle spielen.

Interessant ist, dass sich die Plattform ähnlich wie Ivy Bridge und Sandy Bridge im Desktop-Bereich auch dazu eignen könnte, kommende Ivy-Bridge-Xeons aufzunehmen. Entsprechende Informationen liegen allerdings noch nicht vor.

Zuletzt wagen wir einen abschließenden Blick auf das Board: Für den Einsatzzweck ist es eigentlich ideal, denn mit den gebotenen Features lässt sich alles bauen, was man möchte: Eine leistungsfähige Rechenkiste mit reiner CPU-Power oder aber auch ein Multi-GPU-System, auf dem professionelle GPU-Anwendungen laufen können. Dass das Bios etwas angestaubt ist, lässt sich in diesem Einsatzhintergrund wohl tatsächlich verschmerzen - Overclocker kommen bei den aktuellen Xeon-Modellen sowieso nicht zum Zug. Alleine den Platz um dem zweiten CPU-Sockel hätte ASUS genauso groß gestalten können wie den Platz um den linken CPU-Sockel. Qualitativ ist das Board aber über jede Kritik erhaben: Die verwendeten Komponenten sind allesamt hochwertig, das Board lief in jeder Situation stabil und ohne Probleme.

Positive Eigenschaften des ASUS Z9PE-D8 WS:

Negative Eigenschaften des ASUS Z9PE-D8 WS: