Zwei Intel Xeon Platinum 8380 gegen die Vorgänger im Test

Veröffentlicht am: von

ice-lake-spAnfang April stellte Intel die dritte Generation der Xeon-Scalable-Prozessoren vor. Diese basieren auf dem Ice-Lake-SP-Design, bieten bis zu 40 der Sunny-Cove-Kerne und sind zudem mit 64 PCI-Express-4.0-Lanes und einem schnelleren Octa-Channel-Speicherinterface ausgestattet. Wir haben die Leistung zweier Xeon Platinum 8380, also den Spitzenmodellen mit 40 Kernen, im Vergleich zu den beiden Vorgänger-Generationen mit jeweils 28 Kernen auf den Prüfstand gestellt.

Direkt daneben steht im Büro ein EPYC-Server der 7003-Serie, sodass wir nach diesem Test auch mit Vergleichswerten von AMD aufwarten können. Dies wird allerdings noch einige Tage dauern, da ein Server-Testing nicht ganz so trivial ist und viel Zeit in Anspruch nimmt.

In Ice Lake-SP lassen sich die Probleme, die Intel mit der Fertigung in 10 nm hatte und noch immer hat, denn die dritte Xeon-Scalable-Generation kommt reichlich spät, wohl am besten aufzeigen. Intel nutzt diese Generation für einen Plattformwechsel und eine teilweise Neuausrichtung, denn schon Ende 2021 soll es mit Saphire Rapids die nächste Generation geben.

Ice Lake und Sunny Cove

Die Ice-Lake-Generation sollte ein plattformübergreifender Wechsel sein. Notebook, Desktop und Server sollten bereits 2017 auf die neue Architektur wechseln. Doch Intel hatte große Probleme mit der Einführung der Fertigung in 10 nm und komplett überwunden sind diese noch immer nicht. Die Auswirkungen für Intel als Integrated Device Manufacturer (IDM), der die Entwicklung der Chips und die Fertigung unter einem Dach ausführt, sind enorm. Allerdings sieht Intel im IDM-Konzept nun wieder Chancen und richtet den Konzern mit IDM 2.0 in dieser Hinsicht neu aus. Bis 2023/24 will Intel wieder eine Vorreiterrolle einnehmen. Mit der Fertigung in 7 nm will man wieder auf Augenhöhe mit den anderen Halbleiterherstellern sein und die mehrjährigen Probleme, die sich kaum besser als in den Rocket-Lake-Prozessoren ausdrücken lassen, überwunden haben.

Aber auch wenn es Ice Lake-H für Notebooks mit mehr als vier Kernen oder Ice Lake-S für den Desktop nie gegeben hat, so hielt Intel dennoch an den Plänen zu Xeon-Prozessoren auf Basis von Ice Lake fest. Bereits im vierten Quartal 2020 hat man die ersten Prozessoren an Kunden ausgeliefert, inzwischen sollen es bereits 200.000 Stück sein.

» zur Galerie

Die Sunny-Cove-Architektur bedeutet für Intel den ersten Wechsel in den grundlegenden Strukturen einer CPU-Architektur seit Skylake aus dem Jahre 2015. Sechs Jahre hat Intel nun also kleinere Verbesserungen in Skylake einfließen lassen und bei aller Kritik daran hat Intel es dennoch geschafft, die Leistung im Vergleich zur ersten Generation der Prozessoren auf Basis der Skylake-Architektur bis zu den bis vor wenigen Wochen aktuellen Comet-Lake-Refresh-Prozessoren deutlich zu steigern. Dies hängt außerdem mit den Verbesserungen der Fertigungstechnologien zusammen, denn auch wenn es Skylake auf 10 nm nur im homöopathischen Dosen in Form von Canon Lake gegeben hat, so sind die Optimierungen durch 14nm+, 14nm++ und 14nm+++ signifikant. Rocket Lake-S erreicht 5,3 GHz auf einzelnen Kernen, bis zu 5,1 GHz sind es auf allen acht Kernen.

Doch Sunny Cove bringt nun den Wechsel auf eine völlig neue Mikroarchitektur, die allerdings nun auch schon zwei Jahre alt ist. Intel nimmt ein paar Anpassungen vor, die für die Xeon-Version spezifisch sind.

» zur Galerie

Intel führt mit Sunny Cove eine 5-Wide-Out-of-Order-Architektur-Pipeline ein. Hier gibt es nun vier Unified Reservation Station (RS), was es Intel ermöglicht, die Instruktionen paralleler einfließen zu lassen, als bei Skylake. Womöglich um den Spectre-Mitigierungen entgegen zu wirken, hat Intel der AGU (Address Generation Unit) vier feste Ports zugewiesen. Jeweils zwei AGUs wird eine Load/Store-Unit. Für VEC- und INT-Berechnungen gibt es nun weitere Recheneinheiten in den jeweiligen Ports. All diese Maßnahmen sollen zur Beschleunigung der Architektur beitragen.

Das Front-end bekommt eine höhere Kapazität und die Sprungvorhersagen sollen zudem optimiert worden sein. Die eigentlichen Recheneinheiten sind mit Ice Lake in zwei Dimensionen (Pipeline-Tiefe) und der Breite vergrößert worden, können damit mehr Befehle aufnehmen und weitere Befehlssätze ausführen.

Intel hat zu diesem Zweck die Buffer und Caches im Vergleich zu Cascade Lake vergrößert. Diese können mehr Einträge aufnehmen und die dazugehörigen Load/Store-Einheiten wurden in ihrer Anzahl deutlich erweitert. Eine Änderung für Ice Lake-SP gibt es im Vergleich zur bisherigen Consumer-Version: Der L2-Cache pro Kern wächst von 512 KB pro Kern auf 1,25 MB pro Kern an. Für Cascade Lake belief sich die Kapazität noch auf 1 MB pro Kern.

» zur Galerie

Weiterhin wird Sunny Cove neue ISA-Befehlssätze unterstützen. Dazu gehören Vector-AES, verschiedene SHA-Erweiterungen und vieles mehr – allesamt auf Basis von AVX-512. Bei den beiden erstgenannten handelt es sich um Algorithmen zur Hardwarebeschleunigung von Ver- und Entschlüsselungen. Generell soll der Fokus auf der Beschleunigung von Krypthografie-Algorithmen liegen, was wiederum die von Intel angesprochenen Optimierungen bei den speziellen Anwendungen betrifft.

Das Serverhardware-Benchmarking

Dabei wollen wir auch gleich auf einen extrem wichtigen Aspekt in diesem Bereich eingehen. Das Benchmarking von Server-Hardware ist in weiten Teilen nicht mit dem zu vergleichen, was für Endkunden-Hardware beachtet werden muss. Natürlich geht es letztendlich immer um einen möglichst effektiven Vergleich, doch die Anforderungen dahingehend sind weitaus komplexer.

So gibt es zwar auf dem Desktop einige Anwendungen (und auch Spiele), bei denen es sich lohnt, das Hyper Threading (Intel) oder Simultaneous Multithreading (AMD) abzuschalten, für einen Großteil der Anwendungen ist eine Aufteilung der Threads auf zwei pro Kern aber durchaus sinnvoll, um die zur Verfügung stehenden Ressourcen möglichst effektiv zu nutzen. Für Serveranwendungen sieht dies ganz anders aus. Hier kommt es sehr genau auf die jeweiligen Anwendungen an, ob der Einsatz von HT bzw. SMT Sinn macht oder nicht. Das Verhältnis aus Anwendungen, die vom Hyper Threading profitieren ist im Vergleich zum Desktop eher ausgeglichen, wenn nicht gar eher in Richtung ein Thread pro Kern. Diese Tendenz ist auch klar für Serverprozessoren auf Basis einer Arm-Architektur zu erkennen. Hier bieten die neuesten Prozessoren gar keine SMT mehr. Zugleich verhindern ein Abschalten von HT bzw. SMT viele Sidechannel-Attacken.

» zur Galerie

Eine Ebene weiter getrieben werden kann dies über den Non-Uniform Memory Access oder kurz NUMA. Von Belang ist dies nicht mehr nur in Multi-Socket-Systemen, in denen mehr als ein Prozessor arbeitet. Aber auch AMD hatte in der ersten EPYC-Generation durch den Aufbau das Problem, dass Daten sich in Bereichen des Arbeitsspeichers befinden konnten, die nicht direkt, sondern durch einen anderen NUMA-Knoten angebunden waren. Dies hat natürlich Auswirkungen auf die Latenzen und die Bandbreite, mit der auf die Daten zugegriffen werden kann. 

Software kann sich des Vorhandenseins mehrere NUMA-Cluster bewusst sein und hält die Daten entsprechend dort vor, wo sie vermutlich am schnellsten zugänglich sind. Weiß die Software allerdings nichts von NUMA-Clustern, können Datenzugriffe durch erhöhte Latenzen und verminderte Speicherbandbreiten auch verlangsamt werden. Doch auch dieses Thema kann eine weitere Komplexitätsebene erreichen, wenn wir nicht nur über Zugriffe auf dem Arbeitsspeicher sprechen, sondern auch über solche in den inzwischen nicht unwesentlich großen Caches. Hier kommen dann sogenannte Sub NUMA Cluster (SNC) ins Spiel. Für seine aktuellen Xeon-Prozessoren sieht Intel pro Socket zwei SNCs vor. In einem 2S-System sind dies dann vier NUMA-Cluster. Auch hier gilt: Ist der Software das Vorhandensein dieser NUMA-Cluster bewusst, können die Daten entsprechend optimiert abgelegt werden und dies trägt sogar dazu bei, die Leistung zu erhöhen. Ist dies jedoch nicht der Fall, sollten die SNCs deaktiviert werden, was für einen Großteil der verwendeten Software der Fall ist.

» zur Galerie

Das Zusammenspiel aus Hard- und Software ist der letzte wichtige Aspekt, auf den wir in diesem Zusammenhang eingehen wollen. Die Intel-Prozessoren unterstützen beispielsweise AVX-512. Spezielle Befehlssätze, die darauf ausgelegt sind, können davon Gebrauch machen und Berechnungen somit deutlich schneller ausführen. Ist die Anwendung darauf ausgelegt, wird ein direkt Vergleich zwischen einem Xeon- und einem EPYC-Prozessor also schwieriger. Hier kann man nun auf dem Standpunkt stehen und sagen "ich möchte einen 1:1-Vergleich ohne AVX-512 sehen" oder aber man stellt der Hardware das zur Verfügung stehende Leistungspotenzial zur Verfügung.

Dies gilt auch für die Compiler-Einstellungen, die für die Benchmarks gewählt werden. AMD hat hier ebenso optimierte Einstellungen wie Intel. Diese 1:1 zu vergleichen, ist nicht immer ganz einfach. Aber auch hier gilt: Der Hardware sollte das zur Verfügung stehende Potenzial auch zugestanden werden, schließlich wird ein Cloud-Provider oder interessierte Käufer eben für seine spezielle Anwendung genau diese Optimierungen auch nutzen wollen.

All die oben genannten Punkte spielen für die Tests eine wichtige Rolle und sollen auch möglichst transparent aufgeführt werden. Aber nun zunächst einmal ein paar Worte zum Testsystem.

» zur Galerie

Intel stellt uns ein Ice-Lake-Referenzsystem S2W3SIL4Q zur Verfügung. Das 2S-System verwendet zwei Xeon Platinum 8380 mit jeweils 40 Kernen. An Arbeitsspeicher verbaut sind 16x 32 GB Hynix HMA84GR7CJR4N-XN, optional konnten wir noch 16x 128 GB Optane Persistent Memory 200 verbauen. Die Stromversorgung erfolgt über zwei Netzteile mit einer Ausgangsleistung von jeweils 2.100 W. An Massenspeicher vorhanden waren eine Intel SSD P5510 mit 7,68 TB, eine SSD D3-S4610 mit 960 GB sowie zwei Optane SSD P5800X mit jeweils 800 GB. Zur Netzwerkanbindung vorhanden ist noch eine Intel E810-CQDA2 NIC.

Rückblick auf Skylake-SP und Cascade Lake-SP

Mit dem Vergleich zwischen zwei Xeon Platinum 8280 und den damaligen Vorgängern Xeon Platinum 8180 haben wir uns mit dem Thema der Serverprozessoren schon einmal ausführlicher beschäftigt. Der Wechsel von Skylake-SP zu Cascade Lake-SP war aber bis auf DL-Boost-Benchmarks kaum mit bemerkenswerten Leistungsunterschieden versehen. Mit Ice Lake-SP steht nun ein echter Mikroarchitekturwechsel an.

Der Xeon Platinum 8180 und 8280 verfügen über jeweils 28 Kerne und können 56 Threads verarbeiten. Da sie beide den Sockel LGA3647 verwenden und der Purley-Plattform zugehörig sind, können wir beiden erneut auf dem identischen Mainboard (wir haben wieder ein Supermicro X11DAi-N verwendet) mit gleicher Speicherausstattung testen. Allerdings wird der Xeon Platinum 8180 den Speicher mit 2.666 MHz ansprechen, während der Xeon Platinum 8280 dies mit 2.933 MHz tut. Alle Details zur Hardware, die damals wie heute zum Einsatz gekommen ist, finden sich hier.

» zur Galerie

Aber nicht nur in der Plattform kommt es zu Unterschieden, sondern auch durch die Kühlung. Die LGA3647-Prozessoren testen wir in einem eigens zusammengestellten System. Die Ice-Lake-SP-Prozessoren in einem kompletten Rack mit zwei Höheneinheiten. Lautstärke und Temperaturen spielen für den heutigen Vergleich aber ohnehin keine Rolle. Wir mussten nur sicherstellen, dass beide Plattform und die drei Xeon-Generationen nicht durch die Temperaturen limitiert wurden. Für die Kühlung der LGA3647-Prozessoren haben wir demnach wieder auf zwei Noctua NH-U12S DX-3647 gesetzt. Auch unter Volllast wurden die Prozessoren bei 2.000 Umdrehungen pro Minute nicht wärmer als 60 °C. Damit bewegten sie sich auf Niveau mit den Ice-Lake-Modellen im Serverrack.

Für die Benchmarks der Xeon Platinum 8180 und 8280 gilt hinsichtlich der Einstellungen für das Hyper Threading, SNC und die Compiler-Einstellungen das Gleiche wie am ersten Abschnitt angemerkt.


Intel Xeon Platinum 8380

Intel Xeon Platinum 8280

Intel Xeon Platinum 8180

Gegenüberstellung der Prozessoren

Xeon 8380 Xeon 8280Xeon 8180
Architektur Ice Lake-SPCascade Lake-SPSkylake-SP
Fertigung 10 nm 14 nm14 nm
Basis-Takt 2,9 GHz 2,7 GHz2,5 GHz
Boost-Takt 3,4 GHz 4,0 GHz3,8 GHz
All-Core-Turbo 3,0 GHz 3,3 GHz3,2 GHz
TDP 270 W 205 W205 W
L2-Cache 50 MB 28 MB28 MB
L3-Cache 60 MB 38,5 MB38,5 MB
Speicherinterface 8x DDR4-3200
4 TB DDR4 + 4 TB PMem
6x DDR4-2933
3 TB DDR4 + 3 TB PMem
6x DDR4-2666
768 GB DDR4
PCI-Express-Interface 64 x PCI-Express 4.0 48x PCI-Express 3.048x PCI-Express 3.0
UPI-Links 3x 11,2 GT/s 3x 10,4 GT/s3x 10,4 GT/s
Preis 8.099 USD 10.009 USD10.009 USD
» zur Galerie

Als Betriebssystem haben wir ein Ubuntu eingesetzt.

Einstellungen der Benchmarks

HT SNC2
Y-Cruncher Aus Aus
Blender An Aus
Embree Aus Aus
NAMD An Aus
LAMMPS An An
Monte Carlo Simmulation An Aus
AV1-Encoding Aus Aus
HEVC-Encoding Aus Aus
VP9-Encoding Aus Aus
LLVM-Compiling An Aus
Apache Aus An
PHP Aus Aus
SQL Lite An An
HammerDB Aus Aus
Aerospike An Aus
Stream Aus Aus
MLC Aus Aus

Für die meisten Benchmarks haben wir den GCC 10.3 verwendet, um diese zu compilieren. Für Software auf Basis der oneAPI haben wir auf den Intel oneAPI DPC++/C++ Compiler gesetzt. Im BIOS waren die Systeme jeweils mit maximaler Leistung konfiguriert. Stromsparmechanismen waren deaktiviert. Der Linux Governor war ebenfalls auf Höchstleistung eingestellt.


Neben der Verwendung von bis zu 40 Sunny-Cove-Kernen betrifft eine wichtige Neuerung der Ice-Lake-SP-Prozessoren das Speicherinterface sowie die Reduzierung der Latenzen im L3-Cache und Arbeitsspeicher.

Im Vergleich zu den aktuellen Xeon-Prozessoren erhöht Intel die Anzahl der Speicherkanäle von sechs auf acht. Pro Speicherkanal können zwei Module verwendet werden. Bei der Geschwindigkeit geht Intel von DDR4-2933 auf DDR4-3200 – zumindest für die schnelleren Xeon-Modelle. Zum Vergleich: Zwar unterstützt auch AMD bei den EPYC-Prozessoren DDR4-3200, allerdings nur für ein Modul pro Speicherkanal. Eine gesteigerte Speicherbandbreite bei gleichzeitig geringeren Latenzen soll das Geheimnis des neuen Speichercontrollers sein.

» zur Galerie

Per Ultra Path Interconnect (UPI) kommunizieren mehrere Xeon-Prozessoren in einem Multi-Socket-System miteinander. Intel sieht drei UPI-Links vor, die jeweils 11,2 GT/s erreichen können. Bisher waren hier 9,6, bzw. 10,4 GT/s möglich. Intel hat die Anbindung mehrerer Prozessoren also leicht beschleunigen können. Ein weiterer wichtiger Faktor ist sicherlich die Unterstützung von PCI-Express 4.0 - mehr als zwei Jahre nachdem AMD mit der zweiten EPYC-Generation auf PCI-Express 4.0 wechselte und damit die Möglichkeit bot, externe Hardware deutlich schneller anzubinden. Mit 64 PCI-Express-Lanes bietet Intel selbst in der Ice-Lake-Generation nur halb so viele wie AMD. Ein Dual-Socket-System kommt immerhin auf 128 Lanes, da Intel den UPI als Interconnect zwischen den Sockeln verwendet. Bei AMD sind es im 2S-Betrieb 192, da 64 Lanes für die Kommunikation mit anderen Sockeln verwendet werden.

» zur Galerie

In Zahlen ausgedrückt verzeichnet Intel für den L1-Cache geringfügig höhere Latenzen durch mehr Taktzyklen, die für einen Hit durchlaufen werden müssen und auch im L2 sind die Verbesserungen gegenüber Cascade Lake nicht vorhanden und AMD geringfügig im Vorteil. Beim L3-Cache muss man etwas genauer hinschauen und unterscheiden, ob die Daten bei den EPYC-Prozessoren im lokalen L3-Cache des CCDs liegen, oder auf einem anderen CCD. Lokal liegt die Latenz bei 13,4 ns, bei Intel sind es 21,7 ns. Müssen die Daten jedoch von einem anderen CCD erst übertragen werden, ist die Latenz mit 112 ns bei AMD deutlich höher. Hier zeigt sich eben der Unterschied zwischen einem monolithischen und einem Chiplet-Design. Man muss allerdings sagen, dass AMD einen bis zu 256 MB großen L3-Cache anzubieten hat, während es bei Intel nur 38,5 MB sind.

Ein weiterer Punkt bei den Latenzen ist der Zugriff in einem Multi-Sockel-System auf den L3-Cache eines entfernten Sockels. Diese liegen bei Intel nun bei 118 ns (Cascade Lake: 180 ns) und sind im Vergleich zu AMDs EPYC-Plattform mit 209 ns ebenfalls deutlich geringer.

Auch bei den Latenzen zum Arbeitsspeicher sieht sich Intel mit 85 und 139 ns gegenüber 96 zu 191 ns besser aufgestellt. Zudem wird - wie eben schon erwähnt - DDR4-3200 für zwei DIMMs pro Speicherkanal unterstützt, während dies bei AMDs EPYC-Prozessoren nur für ein Modul pro Speicherkanal möglich ist.

Cache- und Speicherlatenzen

Natürlich aber wollen wir nicht auf die Zahlen von Intel vertrauen und habe eigene Messungen gemacht:

Intel Memory Latency Checker

Cache-Latenzen

ns
Weniger ist besser

Unsere Messungen für die Cache-Latenzen zeigen auf, dass es durch das größere Mesh-Netzwerk zu geringfügig höheren Latenzen kommt. Dies gilt für alle Zugriffe auf den L1-, L2- und L3-Cache der neuen Ice-Lake-SP-Prozessoren. Mit Einschalten des SNC2 reduzieren sich die Latenzen für den L1- und L2-Cache, da das Mesh-Netzwerk in zwei kleinere Netzwerke aufgeteilt wird, was im Zweifel helfen kann.

Für Zugriffe auf den L3-Cache des zweiten Sockels konnte Intel aber eine große Verbesserung in der Latenz bewerkstelligen, was je nach Anwendung von Vorteil sein kann.

Intel Memory Latency Checker

DRAM-Latenz Lesen

ns
Weniger ist besser

Intel Memory Latency Checker

DRAM-Latenz Lesend - Remote-Socket

ns
Weniger ist besser

Die Latenzen für Zugriffe auf den Speicher steigen, wenn auch nur leicht, an. Aber auch hier gibt es eine Verbesserung für Zugriffe auf Speicherbereiche, deren Adressraum zum Speicher des zweiten Prozessors gehören – die sogenannten Remote-Zugriffe.

Speicherbandbreite

Stream

Copy

MB/s
Mehr ist besser

Stream

Scale

MB/s
Mehr ist besser

Stream

Triad

MB/s
Mehr ist besser

Stream

Add

MB/s
Mehr ist besser

Die Steigerung der Speicherbandbreite wird einerseits durch nun acht und zuvor sechs Speicherkanäle erreicht, aber auch der Speicher wird von DDR4-2666 (Skylake) über DDR4-2933 (Cascade Lake) auf nun DDR4-3200 (Ice Lake) beschleunigt. Auch an der internen Bandbreite in der Anbindung der Speichercontroller hat Intel einige Verbesserungen vorgenommen, sodass sich der Zugewinn an dieser Stelle auch in einer höheren Leistung in der Anbindung der Kerne niederschlagen sollte.


» zur Galerie

Als erstes schauen wir uns ein paar der klassischen Rendering-Anwendungen an. Blender und Embree machen dabei dabei vollständig Gebrauch der Verfügung stehenden Kerne und Threads – daher ist das Hyper Threading hier aktiv, während der SNC2-Mode abgeschaltet blieb.

Blender

bmw27

Sekunden
Weniger ist besser

Blender

classroom

Sekunden
Weniger ist besser

Blender

fishy_cat

Sekunden
Weniger ist besser

Blender

koro

Sekunden
Weniger ist besser

Blender

pvaillon_barcelona

Sekunden
Weniger ist besser

Blender

victor

Sekunden
Weniger ist besser

Zwischen 45 und 50 % schneller arbeiten die beiden Xeon Platinum 8380 im Vergleich zu den Vorgängern Xeon Platinum 8280. Die 40 zu 28 Kerne spielen hier die wichtigste Rolle.

Embree ist ein Raytracing-Kernel, der von Intel entwickelt wurde. Die Kernel sind auch auf SSE, AVX, AVX2 und AVX-512 hin optimiert und machen davon Gebrauch. ISPC ist der Intel SPMD Program Compiler, der den Renderer automatisch auf diese Befehlssatzerweiterungen hin anpasst.

» zur Galerie

Die Embree-Benchmarks werden jeweils einmal normal compiliert und einmal mit dem Implicit SPMD Program Compiler ausgeführt. Dieser basiert auf einer LLVM-Infrastruktur.

Embree

Crown

FPS
Mehr ist besser

Embree

Crown (ISPC)

FPS
Mehr ist besser

Embree

Asian Dragon

FPS
Mehr ist besser

Embree

Asian Dragon (ISPC)

FPS
Mehr ist besser

Hinsichtlich der Leistung sehen wir die gleichen bzw. ähnlichen Ergebnisse wie für die Blender-Benchmarks. Für alle Render-Benchmarks ist die Zeitersparnis der entscheidende Faktor. Das Ergebnis steht schneller zur Verfügung - und bei 24 Bildern pro Sekunde für eine Rendersequenz kann ein um 45 % schnelleres Rendering einen großen Unterschied machen.


» zur Galerie

Kommen wir zu im High Performance Computing (HPC) üblichen Anwendungen wie Simulationen. LAMMPS ist ein sogenannter Large-scale Atomic/Molecular Massively Parallel Simulator, der unter anderem Molekulardynamik-Simulation ausführen kann. Im Mocassin wird über eine Monte-Carlo-Simulation ein ionisierter Nebel im Weltraum simuliert. NAMD ist wieder ein Programm zur Simulation molekulardynamischer Prozesse.

Auch hier werden wieder so viele Threads wie möglich benötigt bzw. die Kerne können von der Software mit Hyper Threading bestmöglich ausgelastet werden, so dass diese Option natürlich aktiviert war. Das SNC2 war bis auf die LAMMPS-Simulationen abgeschaltet.

LAMMPS Molecular Dynamics Simulator

20.000 Atome

ns/Tag
Mehr ist besser

LAMMPS Molecular Dynamics Simulator

Rhodopsin-Molekül

ns/Tag
Mehr ist besser

Monte Carlo Simulation

Nebel 2019-03-24

Sekunden
Weniger ist besser

NAMD - Scalable Molecular Dynamics

ATPase Simulation (327.506 Atome)

Tage/ns
Weniger ist besser

Auch für diese Anwendungen, bei denen die Anzahl der Kerne ein entscheidender Faktor zur Skalierung der Leistung ist, liegen die neuen Ice-Lake-Prozessoren deutlich vor ihren Vorgängern. Im Falle der Simulation molekulardynamischer Prozesse kann man die Zahlen aber noch etwas verdeutlichen, denn anstatt 25 ns pro Tag simulieren zu können, sind es nun 39 ns pro Tag und je nachdem wie komplex die Modelle werden und welche Zeiträume simuliert werden sollen, entspricht dies einer deutlichen Zeitersparnis.


Ebenfalls eine typische Anwendung im Serverbereich ist das Media-Encoding. Oft kommen hier noch Software-Encoder zum Einsatz, die auf Prozessoren laufen. Software-Encoder haben den Vorteil, dass sie deutlich besser angepasst werden können. Die Vorteile eines Hardware-Encodings in der Effizienz ist den Anbietern aber auch bewusst. Google hat daher einen eigenen ASIC entwickelt und Intel bietet mit der Server GPU ebenfalls speziell darauf angepasste Hardware an.

Media-Encoding

AV1

Bilder/s
Mehr ist besser

Media-Encoding

HEVC

Bilder/s
Mehr ist besser

Media-Encoding

VP9

Bilder/s
Mehr ist besser

Für das Media-Encoding haben wir eine 8K-Ausgangsdatei in AV1, H.265 und VP9 kodieren lassen und dabei die Bilder pro Sekunde aufgenommen, die erreicht werden können.


Viele Webservices und Datenbank-Anwendungen profitieren natürlich einerseits von der Anzahl der Kerne, aber auch durch die IPC-Leistung der einzelnen Kerne und deren Cache-Größe sowie Geschwindigkeit.

Webservice

Apache

Zugriffe/s
Mehr ist besser

Webservice

PHP

Zugriffe/s
Mehr ist besser

Aus diesem Grund sehen wir für den Apache- und PHP-Benchmark auch ein Leistungsplus im Bereich von 60 % für die zwei Xeon Platinum 8380.

Datenbank-Anwendungen

HammerDB - MariaDB

Order/Min
Mehr ist besser

Datenbank-Anwendungen

HammerDB - MariaDB

Transaktionen/Min
Mehr ist besser

Datenbank-Anwendungen

SQL Lite

Zugriffe
Mehr ist besser

Für die Datenbanken kommen dann auch noch Faktoren wie das Speicherinterface und die Anbindung der Massenspeicher (SSDs) hinzu, denn die Daten müssen aus diesen Speichern ausgelesen und wieder darauf geschrieben werden. Dies sind auch die typischen Anwendungen, für die der Einsatz des Optane DC Persistent Memory infrage kommt. Aber dazu haben wir noch einen speziellen Benchmark erstellt.


7ZIP ist ein weit verbreitetes Verfahren zur Kompression und späteren Dekompression von Daten. Es gibt auch noch zahlreiche andere, die in der Effizienz der Kompression mal besser und mal schlechter funktionieren. 7ZIP bietet aber die Möglichkeit, die Leistung über möglichst viele Plattformen hinweg vergleichen zu können.

Kompressionsverfahren - 7ZIP

Dekompression

MIPS
Mehr ist besser

Kompressionsverfahren - 7ZIP

Kompression

MIPS
Mehr ist besser

Für die Kompression und Dekompression bieten die beiden Xeon Platinum 8380 nicht ganz das Leistungsplus, was anhand der Mehrzahl an Kernen zu erwarten ist. Der Zugewinn beträgt aber noch immer fast 30 %.

AVX-512 ist eines der wichtigsten Argument für Intel. Über die speziellen Befehlssätze kann Intel gewisse Anwendungen, die darauf optimiert sein müssen, schneller ausführen. DL-Boost wird beispielsweise über AVX-512_VNNI ausgeführt und natürlich konzentriert sich Intel in Leistungsvergleichen auf Software, die von AVX-512 Gebrauch macht. Mit Ice Lake-SP werden die AVX-512-Befehlssätze erweitert. Hinzu kommen vor allem solche für Krypthografieverfahren.

Für die nächste Xeon-Generation Sapphire Rapids plant Intel die Einführung einer weiteren Befehlssatzstruktur namens Advanced Matrix Extensions (AMX). Mit SVE2 plant ARM einen offenere Umsetzung spezieller Vektor-Beschleunigungen.

Im Y-Cruncher können wir AVX-512 im Einsatz sehen. Interessant wird hier der Vergleich zu AMDs EPYC-Prozessoren werden, die kein AVX-512 unterstützen.

Y-Cruncher

1T (500M)

Sekunden
Weniger ist besser

Y-Cruncher

nT (25.000M)

Sekunden
Weniger ist besser

Für den Single-Threaded-Test haben wir Pi bis auf 500 Millionen Stellen genau berechnen lassen. Im 1T-Test geschieht dies auf einem Kern. Während ein Xeon Platinum 8280 hier bis auf 4 GHz boosten kann, sind es beim Xeon Platinum 8380 nur 3,4 GHz – der Nachteil der problembehafteten 10-nm-Fertigung. Dennoch kann die Mikroarchitektur einen Teil der geringeren Taktes kompensieren, sodass der Xeon Platinum 8380 schneller als seine Vorgänger ist.

Im nT-Test, bei dem alle Threads zum Einsatz kommen, sehen wir wieder den üblichen Vorsprung für das neue Spitzenmodell mit 40 Kernen.


» zur Galerie

Wenn wir schon von komplexen Konfigurationen im Server-Bereich sprechen, dann müssen wir für die DL-Boost-Benchmarks noch einmal etwas weiter ausholen, denn hierzu mussten wir einige Vorbereitungen treffen, die weit über das hinausgehen, was wir sonst an Testumgebung haben. Unter anderen haben wir ein Open Images Dataset V6 von Google heruntergeladen, das inklusive aller Test- und Validierungs-Daten etwa 600 GB umfasst und für die Tests der Deep-Learning-Anwendungen verwendet wurde.

Für die Berechnungen zum Entrauschen eines Bildes haben wir die Moana Island Scene der Walt Disney Animation Studios geladen und den Open Image Denoise darüber laufen lassen. Die Rohdaten bringen es hier auf 50 GB. Für die Benchmarks zur Datenbankleistung wurden ebenfalls Daten im Bereich von mehreren Terabyte verwendet. Die Datenmenge als solches ist dabei nicht das Problem, aber es zeigt, dass im Serverbereich andere und komplexere Datensätze verwendet werden.

Image Inferencing <7 ms

Open Images Dataset V5 - INT8-Data

Bilder pro Sekunde
Mehr ist besser

Image Inferencing

Open Images Dataset V5 - INT8-Data

Bilder pro Sekunde
Mehr ist besser

Um ein Inferencing des DL-Netzwerkes ausführen zu können, mussten wir zunächst ein sogenanntes Residual Neural Network (ResNet) mit 50 Layern erstellen, aus dem die Kategorisierung und Zuordnung der einzelnen Bilder erfolgt. Je mehr Layer, desto genauer wird der Bildinhalt zugeordnet und kann dementsprechend später auch wiedergefunden werden.

Die Benchmarks beziehen sich aber auf das Inferencing der Daten, also die Auswertung. Dazu haben wir uns zunächst die Leistung in Bildern pro Sekunde für reine INT8-Daten angeschaut. Zwischen 40 und 50 % waren die beiden Xeon Platinum 8280 hier schon schneller als ihre Vorgänger – dank DL-Boost. Die beiden Xeon Platinum 8380 legen noch einmal eine Schippe drauf, was einerseits aufgrund der Mehrzahl an Kernen gelingt, auf der anderen Seite aber auch wegen weiterer Optimierungen im DL-Boost und dem damit einhergehenden IPC-Plus.

Image Inferencing <7 ms

Open Images Dataset V5 - FP32 zu INT8

Bilder pro Sekunde
Mehr ist besser

Image Inferencing

Open Images Dataset V5- FP32 zu INT8

Bilder pro Sekunde
Mehr ist besser

In einem zweiten Test haben wir uns angeschaut, wie hoch die Leistung ist, wenn weitaus größere FP32-Datensätze vorliegen, die ausgewertet werden müssen. Die Genauigkeit von FP32 wird in diesem Bereich eigentlich gar nicht benötigt und von der Software in INT8 überführt. Da die beiden Xeon Platinum 8180 aber keine INT8-Beschleunigung besitzen, rechneten sie weiterhin mit den FP32-Daten und waren deutlich langsamer als ihre Nachfolger Xeon Platinum 8280. Auch hier sehen wir für die beiden Xeon Platinum 8380 ein Leistungsplus durch die höhere Kernanzahl und Architekturverbesserungen.

» zur Galerie

OSPRay und Open Image Denoise

Ray Tracing

Sekunden
Weniger ist besser

Wieder etwas mehr "klassische Rechenleistung" ist für das Raytracing eines Frames aus der Moana-Island-Szene der Walt Disney Animation Studios gefragt. Dies stellt eine typische Rechenaufgabe im Bereich des Film-Renderings dar. Wir haben zunächst die Zeit aufgezeichnet, die für das Raytracing benötigt wird.

Die Auflösung des Bildes beträgt dabei 2.048 x 858 Pixel und das Pathtracing wurde in 64 Samples Per Pixel (SPP) durchgeführt. Dafür benötigen die beiden Xeon-Platinum-Prozessoren der ersten und zweiten Generation in etwa vier Minuten. Die beiden Xeon Platinum 8380 profitieren von ihren 40 Kernen und sind knapp 50 % schneller.

Um die Rechenzeit in einen Vergleich zu setzen: Verdoppeln wir die Auflösung und erhöhen die SPP auf 256, dauert die Berechnung eines Frames bereits mehrere Stunden.

OSPRay und Open Image Denoise

Entrauschen

Sekunden
Weniger ist besser

In einem weiteren Schritt wurde der Open Image Denoiser auf den Frame angewendet, um ein eventuelles Rauschen durch fehlende Samples zu entfernen. Je weniger Samples pro Pixel wir anwenden, desto größter ist das Rauschen im Bild. Der Open Image Denoiser entfernt dieses Rauschen und ersetzt die Informationen durch in einem Deep-Learning-Netzwerk trainierte Daten.

In der Dauer des Entrauschens kommen die DL-Boost-Beschleunigungen der letzten beiden Xeon-Generationen zum Tragen, denn die Xeon Platinum 8280 erledigt das Entrauschen in 11,6 s, während die beiden Xeon Platinum 8180 dazu fast zehnmal so lange benötigen. Auf den beiden Xeon Platinum 8380 dauerte dieser Vorgang nur halb so lange wie bei den direkten Vorgängern.

OSPRay und Open Image Denoise

Ray Tracing und Entrauschen

Sekunden
Weniger ist besser

Der Vorsprung, der im Entrauschen gewonnen wurde, zeigt sich natürlich auch in der Gesamtzeit der Berechnung eines Frames – dort wo das Rendering mittels Raytracing und das Entrauschen zusammengeführt werden. Nun sprechen wir hier von einem Frame in niedriger Auflösung und wenigen Samples. Man kann sich also gut vorstellen, wie lange dies für eine echte Filmproduktion dauert bzw. welcher Vorteil hier durch die Beschleunigung des Entrausch-Vorgangs gewonnen wird.


Mitte des vergangenen Jahres stellte Intel die zweite Generation des Arbeitsspeichers auf Basis des Optane-Speichers vor. Der Optane Persistent Memory 200 ist das letzte fehlende Bindeglied in der von Intel viel zitierten Speicherpyramide. In Abhängigkeit von der Wichtigkeit der Daten und wie schnell auf diese zugegriffen werden soll, liegen sie auf unterschiedlichen Speichermedien. 

Während wir für das Speicher-Subsystem von Nano- und Picosekunden für Cache-Zugriffe sprechen, können inzwischen mehrere hundert Gigabyte oder gar Terabyte an Daten im Arbeitsspeicher abgelegt werden. Die Zugriffszeiten liegen hier bei knapp unter 100 ns. Die schnellen Optane DC SSDs bieten mehrere Terabyte an Kapazität, sind mit 10 ms aber vergleichsweise langsam. Dies setzt sich für Standard-SSDs, 3D NAND SSDs und HDDs entsprechend fort.

» zur Galerie

Am besten wäre es natürlich, alles auf einer Art Ramdisk abzulegen, doch DRAM-Speicher ist teuer und in Servern knapp bemessen. Der Optane Persistent Memory schließt die Lücke zwischen DRAM und den Optane DC SSDs. Im Grunde sprechen wir hier also wirklich von einer Art Ramdisk.

Maximal die Hälfte der DIMM-Steckplätze eines Xeon-Prozessors kann mit Optane Persistent Memory bestückt werden (pro Kanal jeweils ein DRAM und ein Persistent Memory Modul). Der Speicher ist in DIMMs mit einer Kapazität von 128, 256 und 512 GB verfügbar. Der maximale Speicherausbau beläuft sich somit auf 8x 512 GB DDR4-3200 + 8x 512 GB Optane Persistent Memory also insgesamt 8 TB pro Sockel. In der Bestückung der Steckplätze ist darauf zu achten, dass der Optane Persistent Memory näher am Speichercontroller sitzt, als dies für den DRAM des gleichen Speicherkanals der Fall ist. In den Handbüchern und Installationshinweisen der Server und Mainboards wird allerdings auch darauf hingewiesen.

Die Persistent Memory Module (PMM) der Optane Persistent Memory 200 Series werden in den gleichen Kapazitäten von 128, 256 und 512 GB verfügbar sein. Pro Modul beträgt die Leistungsaufnahme 12 oder 15 W.

» zur Galerie

Wichtigstes Merkmal ist die höhere Speicherbandbreite (+25 %) im Vergleich zur ersten Generation, denn die Optane-DIMMs können mit gleichem Takt wie der Arbeitsspeicher (DDR4-3200) angesprochen werden.

Wie der Optane DC Persistent Memory in den Anwendungen verwendet wird, ist wie bislang von der konkreten Umsetzung abhängig. Im App Direct Mode erfolgt eine dedizierte Auslegung der Zugriffe auf den Speicher. Intel hat dazu ein Standard Programming Model entwickelt, über das alle Applikationen im App Direct Mode mit dem Optane DC Persistent Memory sprechen.

Im zweiten Modus, dem Storage over App Direkt, wird der Optane DC Persistent Memory wie eine SSD oder HDD behandelt. Es gibt Blockgrößen und Dateisysteme, mit denen die Daten auf den Speicher geschrieben und davon gelesen werden können. Zudem gibt es einen Mixed Mode, in dem bestimmte Speicherkanäle jeweils unterschiedlich angesprochen werden können.

Für den Test haben wir bisher an Arbeitsspeicher 16x 32 GB an Hynix HMA84GR7CJR4N-XN verwendet. Nun haben wir pro Speicherkanal und Prozessor noch jeweils einmal 128 GB Optane Persistent Memory 200 hinzugesteckt, sodass aus 256 GB an Arbeitsspeicher pro Sockel nun 1.280 GB wurden.

Datenbank-Anwendungen

Aerospike

Zugriffe/s
Mehr ist besser

Für den Datenbank-Benchmark mit PMem haben wir Aerospike verwendet. Im Dual-Socket-Server läuft auf einem Prozessor der Datenbankserver und auf dem zweiten der Client. Wir testen hier also nicht das Dual-Socket-System. Der Optane Persistent Memory wurde im App Direct Mode betrieben. Die erstellte Datenbank hatte eine Größe von 1 TB und rund 10 Milliarden Einträge mit jeweils 64 Bytes. Wir haben diese Größe gewählt, um den DDR4-Arbeitsspeicher vollständig füllen bzw. eine Auslagerung auf die SSDs gewährleisten zu können und um den Optane Persistent Memory in Verwendung zu haben. Im Verhältnis von 70/30 % für das Lesen und Schreiben in der Datenbank haben wir den beständigen Durchsatz aufgenommen.

Im Falle des Xeon Platinum 8380 befanden sich die Daten und der Index auf dem Optane Persistent Memory, was im Falle des nur 256 GB großen DDR4-Speichers nicht möglich ist. Hier lag nur der Index im DRAM, die Daten befanden sich aber auf einer Optane SSD DC P5510. Die schon nicht langsamen SSDs sind dann hier dennoch der Flaschenhals.

Aerospike kann allerdings derart flexibel konfiguriert werden, dass sich die Daten zwar immer auf der oder den SSDs befinden, der Index der Datenbank aber wahlweise ebenfalls auf der SSD, dem DRAM oder im PMem abgelegt werden kann. Die höchste Leistung wird natürlich erreicht, wenn sich Daten und Index im RAM befinden. Allerdings kann dessen Kapazität hier zum Engpass werden. Im Falle eines Stromausfalls oder eines unerwarteten Neustarts liegen die Daten auch sicherer auf der SSD. Befinden sich die Daten und dem Index im RAM, müssen diese neu erstellt werden, im PMem und auf der SSD blieben sie hingegen erhalten.

» zur Galerie

Aber auch wenn der Optane Persistent Memory mit den gleichen Taktraten wie der DDR4-3200 arbeitet, so hat dessen Einsatz dennoch einen gewissen Einfluss auf den Datendurchsatz. Der Unterschied ist allerdings nur für den Maximaldurchsatz relevant, sollte aber im Hinterkopf behalten werden, wenn Anwendungen auf den maximal verfügbaren Datendurchsatz angewiesen sind.


Im Hinblick auf die Fertigung in 10 nm und die Erhöhung der Anzahl der Kerne ist ein Blick auf die Leistungsaufnahme und Effizienz sicherlich nicht uninteressant. Allerdings hat Intel die TDP der Plattform auch von 205 auf 270 W angehoben, sodass hier unter Volllast keine geringere Leistungsaufnahme zu erwarten ist – ganz im Gegenteil. So überrascht es auch nicht, dass zwei Xeon Platinum 8380 unter Volllast auf 530 W Package-Power kommen, während die Vorgänger aufsummiert bei knapp über 400 W liegen. Kurzeitig höhere Power-Limits gibt es bei den Server-Prozessoren nicht. Die Frage ist, ob die beiden Ice-Lake-Prozessoren aus der höheren Leistungsaufnahme auch überproportional Leistung entwicklen können.

Eines kann man vorwegsagen: Intels Serverplattform zeigt sich meist recht sparsam. Im Idle-Betrieb zieht das gesamte System kaum 150 W aus der Steckdose. Die beiden Xeon Platinum 8380 verbrauchen hier in etwa 25 W pro Socket. Der Chipsatz verbraucht ebenfalls noch einmal etwa 20 W und die Lüfter sind nicht heruntergeregelt - und damit sicherlich die größten Verbraucher. Aber ein Server wird sicherlich nicht angeschafft, um im Idle-Betrieb im Rack zu stehen, von daher wollen wir den Fokus hier eher auf die Effizienz unter Last legen.

Effizienz

Leistung pro Watt

Leistung/Watt
Mehr ist besser

Wir haben daher einen kleinen Effizienz-Index errechnet, der sich ganz einfach aus der Leistungsaufnahme und dem Ergebnis einiger Benchmarks zusammensetzt. Darunter sind eine Embree-Rendering-Komponente, aber auch eine NAMD-Simulation und der Y-Cruncher.

Trotz des höheren Verbrauchs, aber aufgrund der höheren IPC-Leistung sowie der höheren Kernanzahl erledigen die beiden Xeon Platinum 8380 ihre Aufgaben im Verhältnis zur Leistungsaufnahme schneller bzw. mit höherer Leistung, sodass sie am Ende effizienter sind. Wir haben einen Index gewählt, der verschiedene Anwendungen zusammenführt. Schlüsselt man diese auf, kann ein Ice Lake-SP sogar noch deutlich effizienter sein als seine Vorgänger. Die Kollegen von Anandtech habe mit SPEC-Werten und auf 205 W normierter Leistungsaufnahme eine um 37 % höhere Effizienz für Integer-Berechnungen und 27 % höhere Effizienz für Fließkomma-Berechnungen ermittelt.

Bei der Messung der Leistungsaufnahme spielen mehrere Faktoren eine Rolle, die man im Hinterkopf haben sollte. So können wir für die Intel-Prozessoren die Package-Power auslesen, müssen hier aber eigentlich auch noch den Chipsatz mit einberechnen, wenn wir diese Werte später mit solchen von AMD oder eventuell einem ARM-Design vergleichen. Bei diesen handelt es sich um SoCs, in denen der Chipsatz sozusagen mit integriert wurde.

Leistungsaufnahme

Gesamtsystem und Package-Power unter Volllast

in W
Weniger ist besser

Hinzu kommen die weiteren Systemkomponenten. Unsere Messungen erfolgten bei einer Vollbestückung mit DDR4-Speicher und unter Volllast der Kerne. Kommen aber beispielsweise noch 16 DIMMs Optane Persistent Memory zum Einsatz, können dies auch noch einmal 16 x 12 W = 192 W sein, die hinzugerechnet werden müssen. Gleiches gilt natürlich auch für schnelle SSDs etc. pp.

Aber mit den ermittelten Werte können wir zumindest das nachstellen, was wir in etwa erwartet haben. Durch die höhere TDP der Ice-Lake-SP-Prozessoren steigt die Leistungsaufnahme pro Sockel und auch für das Gesamtsystem im direkten Vergleich. Zugleich aber sind 270 W auf 40 Kernen für den Xeon Platinum 8380 eben nur 6,75 W/Kern und nicht wie bei den Skylake-Vorgängern 205 W auf 28 Kernen 7,32 W/Kern. Diese einfache Rechnung lässt Komponenten wie das um 33 % breitere Speicherinterface, die größeren Caches und vieles mehr außen vor.


Ice Lake-SP und die Sicherheit

Auf einen Aspekt sind wir im Rahmen dieses Tests nicht eingegangen. Mit Ice Lake-SP führt Intel die SGX (Software Guard Extensions) Secure Enclave erstmals in den großen Xeon-Prozessoren ein. Bisher wurde SGX nur von einigen Xeon-E-Modellen unterstützt und diese dienten dann ausschließlich dem Aufbau und der Verwaltung der sicheren Speicherbereiche. Die AOK will die elektronische Patientenakte (ePA) mit medizinischen Befunden und Informationen über Untersuchungen und Behandlungen sicher mittels SGX verarbeiten und speichern. Wir hatten die Gelegenheit mit Intel und den Entwicklern für die ePA-Umsetzung der AOK bei X-Tention zu sprechen.

Die großen Varianten der Ice-Lake-SP-Prozessoren können eine bis zu 512 GB große Secure Enclave verwalten. In einem 2S-System sind dies also 1 TB an Gesamtspeicher, der sicher verwaltet wird. Wie sicher diese Daten sind, ist angesichts der vielen Sicherheitslücken die in den vergangenen Monaten entdeckt wurden sicherlich die große Frage. Gegen die Load Value Injection oder Plundervolt aber auch CacheOut konnte selbst SGX nichts ausrichten bzw. wurde einfach umgangen.

» zur Galerie

Genau diese Frage haben wir auch Intel und den Entwicklern gestellt. Laut beider Unternehmen bietet SGX dennoch eine deutlich höhere Sicherheit der Daten, denn einige der Angriffe sind mehr oder weniger nur theoretischer Natur oder setzen physikalischen Zugriff auf den Server voraus. SGX bietet letztendlich eine kleinere Angriffsfläche für den Angreifer und stellt eine weitere Hürde dar.

Die nun zwischen 8 und 512 GB große Secure Enclave bietet laut der an der ePA für die AOK beteiligten Entwickler auch ausreichend Speicherkapazität. Anders könnte dies aussehen, wenn auch Röntgen- oder MRT/CT-Bilder darin verarbeitet werden. Da eine Secure Enclave bisher maximal 256 MB groß sein konnte, bieten die bis zu 1 TB in einem Server aber sicherlich einen deutlich größeren Spielraum. Der Einfluss auf die Leistung durch die Nutzung von SGX soll sich im einstelligen Prozentbereich und damit auf Niveau der Total Memory Encryption (TME) bewegen.

Die ePA ist nur ein Anwendungsbereich für Intels SGX. Überall dort, wo Daten nicht nur Verschlüsselt gelesen und geschrieben, sondern auch sicher verarbeitet werden sollen, ist eine Secure Enclave sicher der richtige Schritt zu mehr Sicherheit der Daten. Ein weiteres Beispiel aus dem Finanzsektor ist die Verarbeitung der Datensätze verschiedener Banken, ohne das diese Kundendaten an die Konkurrenz preisgeben müssen.

Finale Einschätzung

Mit Ice Lake-SP setzt Intel den Hebel an gleich mehreren Stellen an. Die neue Mikroarchitektur trägt ihren Teil ebenso dazu bei, wie die Fertigung in 10 nm, das breitere und schnellere Speicherinterface und schlussendlich auch PCI-Express 4.0. Aber die dritte Generation der Xeon-Prozessoren kommt nicht nur reichlich spät, sie zeigt auch die Probleme auf, mit denen Intel in den vergangenen Jahren zu kämpfen hatte.

43 % mehr Kerne (40 vs. 28) bei einer um 32 % höheren Leistungsaufnahme (270 vs. 205 W) klingen zunächst einmal nicht sonderlich spektakulär, vor allem aber muss sich Intel hier auf das IPC-Plus sowie die erwähnten Verbesserungen beim Speicherinterface verlassen, um im Verhältnis auf das erwartete Leistungsplus zu kommen. Zwar steigt die IPC-Leistung im Mittel um 18 %, aber die neuen Prozessoren erreichen im Zweifel nicht den hohen Takt der Vorgänger. Dies gilt für den All-Core-Turbo ebenso wie den maximalen Takt einzelner Kerne. Allerdings ist dieses Thema weitaus komplexer, denn über die verschiedenen Optimierungen in der Speed Select Technology mit den Performance Profilen 2.0 kann Intel hier je nach Anwendung etwas gegensteuern.

Aber versuchen wir eine Beurteilung der Benchmarks: Gegenüber den beiden Vorgänger-Generation ist der Xeon Platinum 8380 vor allem unter Verwendung aller Kerne ein wahres Biest. Zwischen 40 und 45 % an Mehrleistung können wir hier feststellen. Aber zur Ehrlichkeit gehört auch, dass Intel damit gegen AMDs 64 Kerner der 7003-Serie (Milan) wenig wird ausrichten können. Gleiches gilt für die Konkurrenz mit 64, 80 oder gar 128 ARM-Kernen. Die Lücke, die sich hier für Intel entwickelt hat, ist zwar etwas kleiner geworden, aber man ist nicht wieder auf Augenhöhe mit der Konkurrenz.

Dies bedeutet allerdings nicht, dass man in allen Bereichen keine größeren Fortschritte gemacht hat. Vor allem dort, wo Intel mit seinen Speziallösungen aufwarten kann, ist das Leistungsplus deutlich größer, als dies zu erwarten gewesen ist. Genannt seien hier vor allem Optimierungen in den Speicherzugriffen, von denen Datenbanken und DL-Boost-Anwendungen profitieren. Ähnliches gilt auch dort, wo eine Auslagerung auf den Optane Persistent Memory sinnvoll und möglich ist.

» zur Galerie

Die 64 PCI-Express-Lanes nach dem 4.0-Standard sind ein wichtiger Punkt, wenn es um die I/O-Leistung der Ice-Lake-Plattform geht. Bisher konnte Intel hier nur 48x PCI-Express 3.0 bieten, was im Hinblick auf 128/192 PCI-Express-4.0-Lanes bei AMDs EPYC-Plattform geradezu lächerlich wenig war. Aber neben der höheren Anzahl an Kernen hat AMD auch hier weiterhin die Nase vorne. 

Ein vollständiges Bild werden wir uns erst machen können, wenn wir auch die aktuelle EPYC-Generation auf den Prüfstand gestellt haben. Ein Server und jeweils zwei CPU-Varianten für den 2S-Betrieb haben wir bereits vorliegen. Mit den drei Xeon-Generationen haben wir aber schon einmal eine Basis geschaffen (vor allem im Hinblick auf die Benchmarks), die wir für den Test der EPYC-Prozessoren nutzen können.

Bei aller Betrachtung von Technik und den Benchmarks nicht aus den Augen verlieren sollte man auch, dass Intel mit den Preisen auf die Konkurrenz reagiert. Die 10.000 US-Dollar früherer Generationen kann man selbst mit dem Spitzenmodell nicht mehr halten. So kostet der Xeon Platinum 8380 laut Liste nur noch 8.099 US.Dollar, was schon einmal einer Preissenkung von 20 % entspricht. An Groß- und OEM-Kunden gibt Intel aber schon seit einiger Zeit großzügige Rabatte von bis zu 60 %, sodass eine Beurteilung der Preise ohnehin nur schwer möglich ist. Aber ein Blick auf die Preistabelle für Ice Lake-SP zeigt, dass Intel hier nicht mehr verlangen kann was es möchte und stattdessen auch in diesem Punkt konkurrenzfähig werden muss.

Final bleibt also festzuhalten, dass Ice Lake-SP für Intel durchaus als Erfolg zu verbuchen ist. Vor allem Kunden, die Intel treu bleiben wollen (oder müssen), können sich über eine deutliche Steigerung der Leistung und Effizienz freuen. Aber Intel ist längst nicht mehr alleine am Markt, wenngleich man noch die Marktanteile dominiert. Aus technologischer Sicht haben AMD und die ARM-Designs Intel längst überholt und nur noch spezielle Anpassungen halten Intel zum Beispiel in der Kern/Thread-Leistung über Wasser.

Ice Lake-SP erwartet allerdings auch keine allzu umfangreiche Lebensspanne. Gegen Ende des Jahres soll bereits der Nachfolger Sapphire Rapids vorgestellt werden. Dieser kommt dann mit PCI-Express 5.0 und DDR5 daher, was Intel in diesen beiden Aspekten wieder an die technologische Spitzenreiter-Position versetzen könnte. Eine Fertigung in (Enhanced) 10 nm SuperFin sowie ein weiterer Schritt in der Mikroarchitektur stellt viel Gutes in Aussicht.