Zweimal Xeon Platinum 8280 im Server/Workstation-Test

Veröffentlicht am: von

intel-xeon-8280Anfang April machte Intel die Cascade-Lake-Generationen bei den Xeon-Prozessoren offiziell. Diese verwenden die Purley-Plattform auf Basis des Sockel LGA3647, die schon mit den Skylake-SP/AP-Modellen zum Einsatz gekommen ist. Doch es gibt Änderungen in der Architektur, vor allem aber im Speicher-Ökosystem, die Cascade-Lake-Xeons in zahlreichen Bereichen besser aussehen lassen sollen. Wir haben zwei Xeon Platinum 8280 gegen die direkten Vorgänger antreten lassen und dabei verschiedene Anwendungsszenarien angeschaut.

Mit den Xeon-Scalable-Prozessoren der zweiten Generation ändert Intel in gewisser Art und Weise die Marschrichtung der Xeon-Reihe. Während Skylake-SP noch klar auf die klassische Compute-Leistung ausgelegt war und die Xeon-Phi-Beschleuniger oder angehängte FPGAs die Sonderfälle abdeckten, bietet die Cascade-Lake-Architektur in vielerlei Hinsicht Änderungen, die solche Speziallösungen überflüssig machen. Die Cascade-Lake-Xeons sind deutlich breiter aufgestellt und bieten für zahlreiche Bereiche des Servereinsatzes spezielle Lösungen, die aber allesamt auf der gleichen Plattform basieren.

» zur Galerie

Die neuen Prozessoren

Alle neuen Modelle haben wir im ausführlichen Bereich zum Start der Xeon-Scalable-Prozessoren der zweiten Generation aufgeführt.

Auch wenn Cascade Lake gegenüber Skylake ein Wechsel in der Architektur und Fertigung bedeutet, so sind sich beiden Generationen im Hinblick auf die Hardware doch sehr ähnlich. Intel lässt die Cascade-Lake-SP-Prozessoren in drei Die-Größen fertigen. Der LCC-Die (Low Core Count) kommt im R1-Stepping und bietet bis zu acht Kerne. Für die größeren Modelle fertigt Intel den HCC-Die (High Core Count) mit bis zu 18 Kernen im L1-Stepping. Für bis zu 28 Kerne sieht Intel das B1-Stepping des XCC-Dies (Extreme Core Count) vor.

Gefertigt werden die Prozessoren weiterhin in 14 nm. Intel macht keinerlei Angaben über die Anzahl der Transistoren oder die Die-Größe. Der LCC-Die ist etwa 322 mm² groß, ein HCC-Die bringt es auf 484 mm² und ein XCC-Die auf 698 mm². Es dürfte kleinere Änderungen gegenüber der Skylake-SP-Generation im Hinblick auf die Anzahl der Transistoren und auch die Die-Größe geben, denn die Integration der VNNI-Unterstützung sowie die Hardware-Mitigationen gegen Sidechannel-Attacken zieht Änderungen auf Transistorebene nach sich.

Im Vergleich zu den Skylake-Vorgängern spricht Intel von einem Leistungsplus im Bereich von Faktor 1,6. Wenn man sich die einzelnen Modelle etwas genauer anschaut und mit den Vorgängern vergleicht, hebt Intel aber nicht nur den Takt leicht an, sondern spendiert den neuen Modellen auch mehr Kerne. Hatte der Intel Xeon 6130 derer nur 16, sind es beim Xeon 6230N nun 20. Analog lässt sich dies für einige weitere Modellvarianten feststellen. Durch die leicht verbesserte Fertigung hebt Intel den Takt um 200 bis 300 MHz an. 

Optane DC Persistent Memory

Ein wichtiger Faktor bei den Xeon-Scalable-Prozessoren der zweiten Generation ist die erstmalige Verwendung von Optane DC Persistent Memory. Bereits seit einigen Monaten macht Intel deutlich, dass die Verwendung von Optane DC Persistent Memory eine zentrale Rolle für die Cascade-Lake-Xeons spielen wird.

Die Purley-Plattform war von Beginn an darauf ausgelegt, mit diesem neuen Speicher zu arbeiten. Offenbar hatte Intel auch schon mit den Skylake-Xeons entsprechende Pläne, verwendete sie aber letztendlich nur als Entwicklungs-Plattform für den neuen Speicher. Viele Server und Mainboards verfügen bereits über die entsprechende Anzahl an DIMM-Steckplätzen, um die zusätzlichen Module für den Optane DC Persistent Memory aufzunehmen.

» zur Galerie

Um weitere technische Details zur Funktionsweise und dem Aufbau von Optane DC Persistent Memory zu erfahren, empfehlen wir abermals unseren Artikel zum Start der Xeon-Scalable-Prozessoren der zweiten Generation. Hier gehen wir auf die Bestückung und die Betriebsmodi von Optane DC Persistent Memory ein. Da uns aber kein solcher Speicher zur Verfügung stand, basieren unsere Erfahrungen rein auf dem Betrieb mit klassischem DRAM.

Resource Director und Speed Select

Über die Resource Director und Speed Select Technology können die Cascade-Lake-Prozessoren besser an den jeweiligen Workload angepasst werden. Diese Steuerung findet im Falle der Resource Director Technology (RDT) über die Zuweisung per Software statt. Mittels RDT macht es Intel möglich, die zur Verfügung stehenden Ressourcen besser anzupassen. Der Nutzer oder Besitzer der Hardware bzw. des Servers hat die Wahl, ob dessen Ressourcen einem bestimmten Workload exklusiv zur Verfügung stehen oder ob sich diese flexibel zuteilen lassen. Dazu werden die Caches und Speicherbandbreite ständig kontrolliert und können entsprechend zugeteilt werden.

» zur Galerie

Ziel ist es, die Hardware besser auszulasten und kosteneffektiver zu betreiben. Damit wird aber auch einen Teil der Kontrolle über die Hardware abgegeben. Für Workloads, die auf eine exklusive Leistung angewiesen sind, kann RDT natürlich nicht angewendet werden.

» zur Galerie

In eine ähnliche Kerbe schlägt auch die Speed Select Technology (SST). Sie erlaubt es einer bestimmten Anzahl an Kernen besonders hoch zu takten. Dafür werden andere heruntergetaktet. Zum Start sieht Intel drei Xeon-Modelle vor (Y-Modelle), die über Profile verschieden angesteuert werden können.

Es gibt aber auch bestimmte Workloads, die sich auf einen gewissen Basistakt verlassen müssen, weil die Berechnung der Leistung entsprechend ausgelegt ist. Per Speed Select Technology lässt sich die Hardware auch hier besser steuern.

VNNI und DL-Boost

Ein Fokus dieses Artikels wird die Anwendung der neuen Befehlssätze sein. Neben den AVX-512-Instruktionen gehören die Erweiterung der Vector Neural Network Instructions (VNNI) zu den wichtigsten Spezialisierungen der aktuellen Xeon-Prozessoren. Die Rechenleistung für einfache und doppelte Genauigkeit bleibt für die AVX512-Beschleunigung im Vergleich zwischen Skylake und Cascade Lake identisch, durch die Möglichkeit 4x INT Macs/Cycle im Vergleich zu AVX2 auf Skylake-SP zu berechnen, erreichen die Cascade-Lake-Prozessoren eine theoretisch vierfach so hohe Rechenleistung für solche Berechnungen – in der Praxis sollen sie bis zu dreimal schneller sein. Dies werden wir uns anschauen.

» zur Galerie

Die Anwendung von VNNI in den Xeon-Scalable-Prozessoren macht diese flexibler für den Einsatz im Training und Inferencing von Deep-Learning-Netzwerken. Noch immer aber sind für ein reines Inferencing, also eine Auswertung eines solchen Netzwerks, spezielle Prozessoren besser geeignet. Intel will diesen Bereich mit den Agilex-FPGAs abdecken.


Um eine Hardware wie die Xeon-Platinum-Prozessoren testen zu können, benötigen wir natürlich einen komplett neuen Testaufbau. Diesen wollen wir an dieser Stelle einmal etwas genauer erläutern.

Die zentrale Komponente eines solches Systems ist natürlich der Prozessor. In unserem Fall standen uns gleich zwei Xeon Platinum 8280 zur Verfügung, die wir gegen die Vorgänger Xeon Platinum 8180 auf Basis der Skylake-Architektur haben antreten lassen.

» zur Galerie

Beide Prozessoren verfügen über 28 Kerne und können 56 Threads verarbeiten. Da sie beide den Sockel LGA3647 verwenden und der Purley-Plattform zugehörig sind, können wir beiden auf dem identischen Mainboard mit gleicher Speicherausstattung testen. Allerdings wird der Xeon Platinum 8180 den Speicher mit 2.666 MHz ansprechen, während der Xeon Platinum 8280 dies mit 2.933 MHz tun wird.

Unterschiede zwischen den beiden Prozessoren gibt es beim Takt. Der Xeon Platinum 8180 bietet einen Basistakt von 2,5 GHz, der 8280 einen Takt von 2,7 GHz. Diese Taktsteigerung ist auf die Verbesserungen in der Fertigung zurückzuführen. Weiterhin steigt auch der Boost-Takt von 3,8 auf 4,0 GHz. Die Taktsteigerung von 200 MHz kommt auch zum Tragen, wenn die AVX-Befehlserweiterungen zum Einsatz kommen. Verwenden die Intel-Prozessoren die AVX-, AVX2- oder AVX-512-Befehlssätze, können sie aufgrund der höheren Hardwareanforderungen die Turbo-Taktraten nicht in der Form halten, wie dies ohne AVX der Fall ist. Intel hat dazu kürzlich ein Dokument veröffentlicht, welches dies für die Xeon-Scalable-Prozessoren der zweiten Generation genauer aufschlüsselt. Zwischen 600 und 800 MHz, in einigen Fällen sogar um 900 MHz sinkt der CPU-Takt, wenn sie die Instruktionen mit hohen Anforderungen verwenden. Auch der Basis-Takt fällt mit den AVX-, AVX2- oder AVX-512-Befehlssätzen entsprechend niedriger aus.

Die technischen Daten der Xeon-Modelle in der Übersicht
Modell Xeon Platinum 8180Xeon Platinum 8280
Preis 10.009 USD10.009 USD
Technische Daten
Kerne2828
Threads 5656
Basistakt 2,5 GHz2,7 GHz
Boosttakt 3,8 GHz4,0 GHz
L3-Cache 38,5 MB39 MB

TDP

205 W 205 W
Arbeitsspeicher 786 GB DDR4-26661 TB DDR4-2933
Optane DC Persistent Memory
PCI-Express-3.0-Lanes 4848
AVX-512 FMA-Einheiten 22
Speed Select Technology
Resource Director Technology
DL-Boost / VNNI

Die Thermal Design Power der beiden Prozessorgeneration bleibt mit 205 W unverändert. Zwischen den beiden Sockeln wird über drei UPI-Links ein Interconnect ermöglicht. Während der Xeon Platinum 8180 768 GB an DDR4-2666 mit ECC-Unterstützung aufnehmen kann, sind es beim Xeon Platinum 8280 1 TB an DDR4-2933 – natürlich ebenfalls mit ECC-Unterstützung. Das letztgenannte Modell kann zudem noch Optane DC Persistent Memory ansprechen. Intel bietet spezielle Modelle mit einer erweiterten Speicherunterstützung an – sowohl basierend auf Skylake, als auch auf Cascade Lake. Anstatt 12x 128 GB DDR4, also 1.536 GB, können mit den Cascade-Lake-Xeon 6x 128 GB DDR4 (oder gar 6x 256 GB DDR4) + 6x 512 GB an Optane DC Persistent Memory, also 3,84 TB (4,5 TB), pro Sockel verbaut werden.

Ein Xeon Platinum 8180 oder 8280 ist hierzulande ab etwa 11.000 Euro zu haben.

Preise und Verfügbarkeit
Nicht verfügbar Nicht verfügbar Nicht verfügbar


Supermicro X11DAi-N

Die jeweils zwei Xeon-Prozessoren mussten natürlich auch auf einem entsprechenden Dual-Sockel-Mainboard untergebracht werden. Unsere Wahl fiel auf das Supermicro X11DAi-N. Es bietet die Unterstützung für die Xeon-Scalable-Prozessoren der zweiten Generation und nimmt zwei Prozessoren mit einer TDP von jeweils 205 W auf.

» zur Galerie

Direkt über und unter den beiden Sockeln sind die jeweils zwei DIMM-Steckplätze zu sehen, in denen wir auch Optane DC Persistent Memory unterbringen könnten. Vielleicht werden wir dazu später noch die Gelegenheit haben. Die entsprechend Hardware in Form der Prozessoren und des Mainboards steht uns jedenfalls zur Verfügung. Je nach verwendetem Speicher werden natürlich Single-Bit-Fehler korrigiert und Double-Bit-Fehler erkannt.

An PCI-Express-Steckplätzen bietet das Board 4x PCI-Express 3.0 x16 und 2x PCI-Express 3.0 x8. Aufgrund der nur 48 PCI-Express-Lanes jedes Prozessors, teilen sich diese entsprechend gleichmäßig auf die Steckplätze auf. Bei der Bestückung ist dann darauf zu achten, welcher Steckplatz über welchen Prozessor angebunden wird. 

» zur Galerie

Das Supermicro X11DAi-N verwendet den C261-Chipsatz von Intel. Über diesen werden beispielsweise die zehn SATA-Anschlüsse sowie die beiden Gigabit-Ethernet-Anschlüsse realisiert. Ein 10 GbE bietet das Board nicht. Orange und damit gut zu erkennen sind die beiden SATADOMs. Daran können Laufwerke direkt und ohne Stromversorgung angeschlossen werden. Rechts daneben sind die beiden NVMe Oculink-Anschlüsse zu sehen, die im Serverbereich mehr und mehr Verbreitung finden.

Ebenfalls angeboten wird ein M.2-Steckplatz für 2260-, 2280- und 22110-Module, der über vier Lanes an die CPU1 angebunden ist. Das Supermicro X11DAi-N ist kein reines Serverboard, sondern vielmehr ein Workstation-Server-Zwitter, der unseren Bedürfnissen sehr entgegenkommt.

» zur Galerie

Über das Intelligent Platform Management Interface (IPMI) kann ein System mit dem Supermicro X11DAi-N auch aus der ferne überwacht werden. Per Browser kann die Computer-Hardware und -Firmware ferngesteuert überwacht und verwaltet werden, auch wenn der Server ausgeschaltet ist und/oder kein Betriebssystem installiert ist.

Der Preis des Supermicro X11DAi-N liegt bei etwa 550 Euro.

Preise und Verfügbarkeit
Nicht verfügbar Nicht verfügbar Nicht verfügbar


SK Hynix HMA84GR7CJR4N

Der von uns verwendete Arbeitsspeicher stammt von SK Hynix. Es handelt sich um Registered DDR4 SDRAM DIMMs mit der Bezeichnung HMA84GR7CJR4N. Diese werden mit 1,2 V betrieben und arbeiten mit Transferraten von bis zu PC4-2933 (Xeon Platinum 8280) und PC4-2666 (Xeon Platinum 8180). Sie bieten die Unterstützung von ECC.

» zur Galerie

Pro Sockel haben wir sechs DIMMs bestückt, um das Hexa-Channel-Speicherinterface der Prozessoren auszunutzen. Der Speicher hatte eine Kapazität von 32 GB pro Modul und demnach kommen wir auf 192 GB pro Sockel und 384 GB für das gesamte System.

Die Kosten für den Arbeitsspeicher liegen bei etwa 300 Euro pro DIMM, also etwa 3.600 Euro für die von uns gewählte Bestückung.

Noctua NH-U12S DX-3647

Natürlich mussten wir unseren beiden Prozessoren auch kühlen und da keine klassische Serverumgebung mit semipassiver Kühlung über einen Kühlkörper und Luftzug im Rack zum Einsatz kommen konnte, haben wir auf zwei Noctua NH-U12S DX-3647 gesetzt. Zwar gibt es auch noch den größeren NH-U14S DX-3647, für diesen konnten wir aber nicht sicherstellen, dass nicht zu Inkompatibilitäten mit dem Speicher etc. kommt.

» zur Galerie

Der Noctua NH-U12S DX-3647 kann auf Square- und Narrow-ILM verbaut werden. Die Bodenplatte des Kühlers deckt den kompletten Heatspreader der Prozessoren ab. Vier Heatpipes führen die Abwärme in den Kühlkörper, wo dann zwei NF-A12x25 120 mm für ausreichend Frischluft sorgen.

Auch unter Volllast wurden die Prozessoren bei 2.000 Umdrehungen pro Minute nicht wärmer als 60 °C. Ausgelegt sind sie für einen Betrieb bei 84 °C und in eng gepackten Serverumgebungen wird es meist auch deutlich wärmer als 60 °C.

Der Noctua NH-U12S DX-3647 kostet etwa 100 Euro pro Stück.

Sockelmontage nicht ganz einfach

Die Montage eines Prozessors in einen derart großen Sockel ist nicht ganz einfach. Wer aber nicht gerade zwei linke Hände hat, der sollte keine größeren Probleme bekommen. Während bei Ryzen-Prozessoren die empfindlichen Pins unterhalb des CPU-Packages zu finden sind und etwas Achtsamkeit im Umgang damit eine Grundvoraussetzung ist, befinden sich die empfindlichen Komponenten beim Sockel TR4 sowie den Sockeln für Intel-Prozessoren im Sockel selbst. Man sollte es also tunlichst vermeiden, in den Sockel zu greifen. Entsprechende Schutzkappen sollen dies verhindern und sind auf dem Mainboard montiert.

» zur Galerie

Für den LGA3647 gibt es aber noch weitere Punkte, die zu beachten sind. Einen Independent Loading Mechanism (ILM) gibt es hier nicht. Zwar spricht Intel auch von einem ILM für den LGA3647, dieser unterscheidet sich aber von den Mechanismen auf den Endkunden-Boards. Noctua legt eine Art Montagerahmen bei, in den der Prozessor gesteckt und dann schon am Kühler befestigt wird. Dann werden Kühler samt Prozessor in den Sockel eingesetzt.

Das Einsetzen des Prozessors ist recht einfach. Pin 1 ist mit einem Dreieck markiert und dieses findet sich auch im Sockel wieder. Zudem sorgen Aussparungen im Package dafür, dass man den Prozessor in der richtigen Ausrichtung in den Sockel setzt. 

» zur Galerie

Zwei Pins geben vor, wo sich der Kühler auf dem Prozessor bzw. Heatspreader platziert. Danach werden die vier Schrauben in der beschriebenen Reihenfolge angezogen. Ein T30 ist dazu notwendig und am besten hat man diese Größe auch gleich als Drehmomentschlüssel zur Hand, denn die Schrauben sollen mit genau 1,4 nm angezogen werden. Für die Montage und Demontage sollte die ebenfalls beschriebene Reihenfolge für das Festziehen und Lösen der Schrauben beachtet werden.

Es ist wichtig, dass der Prozessor richtig im Sockel sitzt und auch mit ausreichend Druck in den Sockel gedrückt wird, denn nur dann ist sichergestellt, das alle 3.746 Pins auch Kontakt herstellen. Ist dies nicht der Fall und es hat glücklicherweise nur einen der vielen Masse-Kontakte getroffen, ist dies nicht weiter schlimm. Aber bereits ein anderer Pin, der keinen korrekten Kontakt herstellt, kann dazu führen, dass das System nicht bootet oder einer der Speicherkanäle nicht funktioniert. Diese Probleme treten mit allen größeren LGA-Sockeln auf – auch bei AMD mit dem TR4 bzw. SP3 für die Ryzen-Threadripper- und EPYC-Prozessoren. Dies war auch bei der mehrfachen Montage der jeweils beiden Xeon-Platinum-Prozessoren hin und wieder der Fall. Wir mussten die Schrauben meist noch einmal lösen, Prozessor und Kühler abnehmen und beides erneut einsetzen. Danach wurden Prozessor und Speicher meist erkannt.

Als weitere Hardware zum Einsatz gekommen ist eine Intel Optane SSD 905P über einen PCI-Express-U.2-Adapter sowie eine 10 TB große Seagate Barracuda an einem SATA-Anschluss.


Zunächst einmal schauen wir uns einige Workstation-Benchmarks an, wobei dieser Begriff eher fließend ist und wir uns später unter den Server-Benchmarks auch noch einige Ergebnisse anschauen, die auch unter den Workstation-Anwendungen verortet werden können.

Für die Workstation-Benchmarks können wir auch einige Werte von unseren Tests zum Core i9-9980XE und Xeon W-3175X übernehmen. Neben dem Dual-Sockel-System mit Xeon Platinum 8180 und Xeon Platinum 8280 konnten wir uns aber noch keine weiteren Server-Prozessoren anschauen.

Cinebench R20

Multi-Threaded

Punkte
Mehr ist besser

Der Cinebench R20 ist eigentlich ein Benchmark, der gut über die Anzahl der Kerne skaliert. Dies zeigt sich zumindest beim Core i9-990XE und Xeon W-3175X. Für das 2S-System aus zwei Xeon Platinum 8180 bzw. 8280 ist die Leistungssteigerung allerdings weitaus geringer, wenngleich die doppelte Anzahl an Kernen zum Einsatz kommt. Durch den etwas höheren Takt kommen die beiden Xeon Platinum 8280 auf eine Mehrleistung von etwa 4 %.

Cinebench R20

Single-Threaded

Punkte
Mehr ist besser

Dafür macht sich der höhere Boost-Takt einzelner oder zwei Kerne im Single-Threaded-Benchmarks bemerkt, denn hier schneiden der Xeon Platinum 8280 und 8180 nicht besonders gut ab. Der Xeon W-3175X und Core i9-9980XE takten deutlich höher und erreichen daher auch einen höheren Cinebench-Wert.

Compiling

Mozilla Firefox

Sekunden
Weniger ist besser

Die Werte des Compile-Benchmarks aus dem Artikel zum Xeon W-3175X können wir leider nicht übernehmen, da wir die Methodik noch einmal überarbeitet haben. Zukünftig soll das Compiling des Mozilla Firefox aber ein Standard-Benchmark werden.

Die beiden Xeon Platinum 8280 erledigt diese Aufgabe in etwas mehr als zehn Minuten, zwei Xeon Platinum 8180 brauchen eine Minute länger. Wir haben zumindest einen groben Richtwert für einen AMD Ryzen Threadripper 2990WX, der etwa 15 Minuten benötigt.

Corona Benchmark

Ray-Tracing

Sekunden
Weniger ist besser

Im Vergleich zum Cinebench R20 wieder deutlich besser skaliert der Corona-Benchmark. Hier wird ein Ray-Tracing auf eine vordefinierte Szene angewendet und die beiden Xeon Platinum 8280 sind noch einmal deutlich schneller als der Xeon W-3175X. Die Zeit durch doppelt so viele Kerne reduziert sich in etwa um ein Drittel. Zwischen den Xeon Platinum 8180 und 8280 gibt es hingegen nur minimale Unterschiede.

V-Ray Benchmark

Rendering

Sekunden
Weniger ist besser

Etwas weniger gut skaliert der V-Ray-Benchmark von der Chaosgroup, denn das Leistungsplus liegt bei nur noch 25 % durch doppelt so viele Kerne. Der geringe Taktunterschied zwischen den Skylake- und Cascade-Lake-Varianten macht sich in der Renderzeit gar nicht mehr bemerkbar.

DigiCortex

Synapsensimulation

Echtzeitfaktor
Mehr ist besser

Mit der DigiCortex-Simulation schauen wir uns eine eher wissenschaftlich orientierte Anwendung an. Es handelt sich dabei um eine auf die Simulation von biochemischen Interaktionen ausgerichtete Engine, die in diesem Fall die Aktivität von Neuronen und Synapsen simuliert. DigiCortex verwendet die AVX2- und AVX512-Befehlssätze der Intel-Prozessoren.

Hier zeigt sich dann wiederum sehr deutlich, dass viele Kerne nicht immer hilfreich sind. Stattdessen scheinen ein gutes Dutzend schneller Kerne besser geeignet zu sein. Die beiden Xeon Platinum 8280 scheinen unter Zuhilfenahme der VX512-Befehlssätze aber eine deutlich höhere Leistung abrufen zu können, als dies für die beiden Xeon Platinum 8180 der Fall ist.

Y-Cruncher

Pi auf 500 Millionen Stellen

Sekunden
Weniger ist besser

Zumindest wieder einen gewissen Nutzen ziehen die 56 Kerne und 112 Threads im Y-Cruncher und der Berechnung von Pi auf 500 Millionen Stellen. Die Zeit zur Berechnung wird um 25 % reduziert – bei doppelt so vielen Kernen. Zwischen den Skylake- und Cascade-Lake-Varianten gibt es kaum Leistungsunterschiede.


Auf die Workstation-Benchmarks folgen nun die eher serverseitigen Anwendungen. Hierzu mussten wir einige Vorbereitungen treffen, die weit über das hinausgehen, was wir sonst an Testumgebung haben. Unter anderen haben wir ein Open Images Dataset V5 von Google heruntergeladen, das etwa 500 GB umfasst und für die Tests der Deep-Learning-Anwendungen verwendet wurden.

Für die Berechnungen zum Entrauschen eines Bildes haben wir die Moana Island Scene der Walt Disney Animation Studios geladen und den Open Image Denoise darüber laufen lassen. Die Rohdaten bringen es hier auf 50 GB. Für die Benchmarks zur Datenbankleistung wurden ebenfalls Daten im Bereich von mehreren Terabyte verwendet. Die Datenmenge als solches ist dabei nicht das Problem, aber es zeigt, dass im Serverbereich andere und komplexere Datensätze verwendet werden.

» zur Galerie

Neben Windows 10 kam dabei auch ein Linux-System zum Einsatz. Wir haben dazu ein ClearLinux verwendet. Hinzu kommen diverse Frameworks und Programm-Bibliotheken, auf die wir noch genauer eingehen werden. Die Intel Math Kernel Library ist beispielsweise in wichtiger Bestandteil und Basis vieler Benchmarks.

Auf viele Aspekte für die Leistung eines Serversystems können wir zum jetzigen Zeitpunkt aber noch nicht vollumfänglich eingehen, da sich dieser Bereich redaktionell noch im Aufbau befindet. Wir wollen auch noch einmal klarstellen, dass die gewonnen Daten extrem davon abhängig sind, wie genau die einzelnen Benchmarks und Anwendungen optimiert worden sind. Gerade bei eher praxisrelevanten Workloads wie den Datenbanken gibt es hunderte Stellschrauben, an denen gedreht werden kann. Einfache One-Klick-Benchmarks gibt es bei den Servernanwendungen so gut wie nicht.

Integer-Rechenleistung

Linpack C++

GFLOPS
Mehr ist besser

Fließkomma-Rechenleistung

Linpack C++

GFLOPS
Mehr ist besser

Zunächst einmal haben wir uns die rohe Rechenleistung der Systeme angeschaut. Dazu haben wir ein Linpack laufen lassen und die Werte verglichen. Das leichte Taktplus der Xeon Platinum 8280 gegenüber dem Vorgänger zeigt sich hier durch ein leichtes Leistungsplus. Große Sprünge waren aber auch nicht zu erwarten.

Stream Speicherbenchmark

Copy

GB/s
Mehr ist besser

Stream Speicherbenchmark

Triad

GB/s
Mehr ist besser

Als nächstes schauen wir uns die Speicherbandbreite an. Beide Systeme verfügen über ein Speicherinterface mit sechs Kanälen. Der Xeon Platinum 8180 spricht den DDR4-Speicher mit 2666 MHz an, der Xeon Platinum 8280 mit 2933 MHz und entsprechend sehr wir auch einen Unterschied in der Speicherbandbreite. Der Xeon Platinum 8280 bietet eine um 15 % höhere Speicherbandbreite, hat es damit aber noch immer schwer gegen das Achtkanal-Speicherinterface eines aktuellen AMD EPYC 7601, der noch einmal rund ein Drittel mehr Speicherbandbreite bietet.

PyTorch Landmark Points

PyTorch Gesichtsdatenbank

Zeit in Sekunden
Weniger ist besser

PyTorch ist eine Open Source Deep-Learning-Plattform. Wir haben uns hier ein Beispiel für das Processing und die Analyse von Daten angeschaut und dazu eine Bilddatenbank mit mehreren Gesichtern analysieren lassen. Für jedes Gesicht werden automatisch 68 sogenannten Landmarks festgelegt, um eine Charakterisierung vorzunehmen. Wir haben die mittlere Dauer für die Analyse eines jeden Gesichtes aus dieser Datenbank aufgenommen. Die Datenanalyse erfolgte auf Basis von INT8-Daten, sodass die beiden Xeon Platinum 8280 von ihrer DL-Boost-Beschleunigung profitieren konnten.

Image Inferencing < 7 ms

Open Images Dataset V5 - INT8-Data

Bilder pro Sekunde
Mehr ist besser

Image Inferencing

Open Images Dataset V5 - INT8-Data

Bilder pro Sekunde
Mehr ist besser

Auch der nächste Benchmark ist im Bereich der Deep-Learning-Anwendungen zu verorten. Hier haben wir das Open Images Dataset V5 mit einer Größe von 500 GB und mehreren zehntausend Bildern durch einen Deep-Learning-Algorithmus trainieren lassen, was mehrere Tage in Anspruch genommen hat. In einem Residual Neural Network (ResNet) mit 50 Layern erfolgt die Kategorisierung und Zuordnung der einzelnen Bilder. Je mehr Layer, desto genauer wird der Bildinhalt zugeordnet und kann dementsprechend später auch wiedergefunden werden.

Die Benchmarks beziehen sich aber auf das Inferencing der Daten, also die Auswertung. Dazu haben wir uns zunächst die Leistung in Bildern pro Sekunde für reine INT8-Daten angeschaut. Zwischen 40 und 50 % sind die beiden Xeon Platinum 8280 hier schneller als ihre Vorgänger. Auch hier spielt die Beschleunigung mittels DL-Boost eine wichtige Rolle.

Image Inferencing < 7 ms

Open Images Dataset V5 - FP32 zu INT8

Bilder pro Sekunde
Mehr ist besser

Image Inferencing

Open Images Dataset V5- FP32 zu INT8

Bilder pro Sekunde
Mehr ist besser

In einem zweiten Test haben wir uns angeschaut, wie hoch die Leistung ist, wenn weitaus größere FP32-Datensätze vorliegen, die ausgewertet werden müssen. Die Genauigkeit von FP32 wird in diesem Bereich eigentlich gar nicht benötigt und von der Software in INT8 überführt. Da die beiden Xeon Platinum 8180 aber keine INT8-Beschleunigung besitzen, rechnen sie weiterhin mit den FP32-Daten und sind deutlich langsamer als ihre Nachfolger. Wir sprechen hier von der vierfachen Leistung, was ein deutlicher Sprung ist.

OSPRay und Open Image Denoise

Ray Tracing

Sekunden
Weniger ist besser

Wieder etwas mehr "klassische Rechenleistung" ist für das Ray Tracing eines Frames aus der Moana-Island-Szene der Walt Disney Animation Studios gefragt. Dies stellt eine typische Rechenaufgabe im Bereich des Film-Renderings dar. Wir haben zunächst die Zeit aufgezeichnet, die für das Ray Tracing benötigt wird.

Die Auflösung des Bildes beträgt dabei 2.048 x 858 Pixel und das Path Tracing wurde in 64 Samples Per Pixel (SPP) durchgeführt. Dafür benötigen die beiden Xeon-Platinum-Prozessoren in etwa vier Minuten, wobei die neueren Xeon Platinum 8280 etwas schneller rechneten.

Um die Rechenzeit in einen Vergleich zu setzen: Verdoppeln wir die Auflösung und erhöhen die SPP auf 256, dauert die Berechnung eines Frames bereits mehrere Stunden.

OSPRay und Open Image Denoise

Entrauschen

Sekunden
Weniger ist besser

In einem weiteren Schritt wurde der Open Image Denoiser auf den Frame angewendet, um ein eventuelles Rauschen durch fehlende Samples zu entfernen. Je weniger Samples pro Pixel wir anwenden, desto größter ist das Rauschen im Bild. Der Open Image Denoiser entfernt dieses Rauschen und ersetzt die Informationen durch in einem Deep-Learning-Netzwerk trainierte Daten.

In der Dauer des Entrauschens kommen die DL-Boost-Beschleunigungen der Xeon Platinum 8280 zum Tragen, denn das System erledigt das Entrauschen in 11,6 Sekunden, während die beiden Xeon Platinum 8180 dazu fast zehnmal so lange benötigen.

OSPRay und Open Image Denoise

Ray Tracing und Entrauschen

Sekunden
Weniger ist besser

Der Vorsprung, der im Entrauschen gewonnen wurde, zeigt sich natürlich auch in der Gesamtzeit der Berechnung eines Frames. Nun sprechen wir hier von einem Frame in niedriger Auflösung und wenigen Samples. Man kann sich also gut vorstellen, wie lange dies für eine echte Filmproduktion dauert bzw. welcher Vorteil hier durch die Beschleunigung des Entrausch-Vorgangs gewonnen wird.

Hadoop Datenbank-Leistung

k-Means Clusteranalyse

Zeit in Sekunden
Weniger ist besser

Hadoop Datenbank-Leistung

Sort

Zeit in Sekunden
Weniger ist besser

Hadoop Datenbank-Leistung

Terasort

Zeit in Sekunden
Weniger ist besser

Zum Abschluss haben wir noch einige Datenbank-Benchmarks ausgeführt. Auf diesen Daten haben wir verschiedene Sort-Algorithmen angewendet. Für K-Means werden aus einer Menge von ähnlichen Objekten eine vorher bekannte Anzahl von k Gruppen gebildet. Sort führt eine einfache Sortierung durch. Für Terasort werden genau 1 Terabyte an Daten sortiert.

Aufgezeichnet haben wir die benötigte Zeit um den Sort-Algorithmus auszuführen. Im Falle der von uns verwendeten Datenbank wurden die Daten nicht alle in den Arbeitsspeicher abgelegt, da dieser nur 384 GB groß ist. Zwischen den Skylake- und Cascade-Lake-Xeons gibt es nur geringe Unterschiede in der Leistung, die auf dem Taktplus der Xeon Platinum 8280 beruhen.

Die neuen Cascade-Lake-Xeons können im Bereich der Datenbanken vor allem dann profitieren, wenn diese komplett in den Arbeitsspeicher bzw. auf den Optane DC Persistent Memory abgelegt werden. Wir sprechen hier aber von Anwendungen, die mehrere Terabyte an Daten umfassen und kostengünstiger in Server mit einer Kombination aus Arbeitsspeicher und Optane DC Persistent Memory abgelegt werden können.


Nach all den Leistungsmessungen wollen wir uns natürlich auch anschauen, welche weitere Messungen wir noch vornehmen sollten. Die Leistungsaufnahme eines solchen Systems ist sicherlich ein interessanter Faktor.

Leistungsaufnahme

nur CPU

Watt
Weniger ist besser

Gemessen haben wir die Leistungsaufnahme der beiden Prozessoren über eine Stromzange an den beiden 8-Pin-Anschlüssen. Dies war auch für die Systeme der Fall, in denen der Core i9-9980XE und Xeon W-3175X steckten. Dabei zeigt sich recht deutlich, dass die von Intel angegebenen 205 W TDP (PL1) nur für die Dauerlast gelten. Wir messen etwa 300 W für jeden einzelnen Prozessor unter Volllast einer AVX512-Anwendung – beide zusammen kommen also auf über 600 W.

» zur Galerie

Zu den Temperaturen können wir eigentlich nicht viel mehr sagen als das die beiden Noctua NH-U12S DX-3647 diese sehr gut im Griff haben und wir uns immer im Bereich von 60 °C unter Volllast – auch über mehrere Stunden – bewegt haben. Dabei arbeiteten die jeweils zwei Lüfter mit 2.000 Umdrehungen pro Minute.

Sicherheitslücken

Aufgrund der aktuellen Lage wollen wir noch ein paar Worte zum Thema der Sicherheitslücken verlieren. Cascade Lake sieht folgende Verbesserungen in dieser Hinsicht vor, die sich in Kombination aus Hard- und Software wie folgt darstellen:

In den vergangenen Tagen ist nun auch noch das Thema Microarchitectural Data Sampling (MDS) aufgekommen.

» zur Galerie

Mittels MDS Tool lässt sich die Anfälligkeit der Hard- und Software auf die verschiedenen Sicherheitslücken prüfen. Hier zeigt sich dann die Hardware-Mitigation für die Meltdown-Sicherheitslücke sowie das Microarchitectural Data Sampling.

Das es noch weitere Varianten und ähnliche Lücken wie Spectre und Meltdown gibt, daran gab es längst keine Zweifel mehr. Die Frage, die sich nun stellt, ist: Wann und wie wird Intel diese Problematik final in den Griff bekommen? Die Architektur als solches scheint grundsätzlich problematisch zu sein. Es bleibt also nur zu hoffen, dass die Ingenieure einen Weg die Prozessoren besser abzusichern. Gerade im professionellen Umfeld wird die Thematik für Intel offenbar zu einem Fass ohne Boden.

Den Einfluss der Hard- und Software-Mitigationen spielt Intel natürlich gerne herunter. Gerade mit den Lücken des Microarchitectural Data Sampling und der Empfehlung im sicherheitsrelevanten Bereich das Hyper-Threading zu deaktivieren bedeutet dies für Intel aber einen großen Einschnitt den es den Kunden gegenüber zu rechtfertigen gilt. Dort wo die Total Cost of Ownership (TCO) auf den Dollar heruntergebrochen bei großen Systemen bis in die Millionen reichen, sind solche Fehler und Lücken sehr problematisch – vom Vertrauensverlust gar nicht zu sprechen.


Die Xeon-Scalable-Prozessoren der zweiten Generation bieten aus technischer Sicht zunächst einmal keine großen Neuerungen. Bis zu 28 Kerne aus der 14-nm-Fertigung mit geringen Taktsteigerungen - auf die neue 9000-Serie der Xeon-Platinum-Prozessoren und deren Besonderheiten sind wir in einer Meldung noch genauer eingegangen. Dies zeigt sich auch in einigen Benchmarks, die keine Verwendung der neuen Frameworks und Hardwarebeschleunigungen vorsehen. Klassisches FP32-Compute mit und ohne AVX512 bewegt sich somit auf dem bekannten Niveau. Dies bedeutet auch, dass wir bei der Effizienz bzw. der Leistungsaufnahme mit Cascade Lake kaum Verbesserungen gesehen haben.

Doch die Xeon-Scalable-Prozessoren der zweiten Generation auf Basis der Cascade-Lake-Architektur beziehen ihre Leistungsvorteile in anderen Bereichen und auch dies wird aus den Benchmarks deutlich. So steigert Intel den Takt des unterstützten Arbeitsspeichers und auch wenn DDR4-2666 zu DDR-2933 zunächst einmal nach nicht viel klingt, dort wo Speicherbandbreite wichtig ist, können ein paar GB/s mehr eine merkliche Rolle spielen.

Einen Aspekt der Speicherunterstützung konnten wir noch nicht testen und dabei handelt es sich um den neuen Optane DC Persistent Memory. Mithilfe dieses Speicher lässt sich einerseits die Gesamtkapazität des Speicherausbaus erhöhen, andererseits die Kosten pro GB gleichzeitig senken. Man muss sich aber schon sehr genau anschauen, wann sich der Einsatz des Optane DC Persistent Memory wirklich lohnt oder nicht. Dies spielt auch für die Anwendung von mehreren VMs eine Rolle. Durch den größeren Speicherausbau haben die Xeon-Scalable-Prozessoren der zweiten Generation unter Umständen auch hier Vorteile auf ihrer Seite.

Interessant wird es immer dann, wenn die DL-Boost-Beschleunigungen zum Einsatz kommen. Hier zeigen sich die Vorteile der Cascade-Lake-Xeons sicherlich am deutlichsten. Zwischen einem Faktor 1,5 und 10 bewegen sich die Leistungsvorteile zweier Xeon Platinum 8280 gegenüber den Vorgängern. Und Intel will in diesem Bereich weiter Verbesserungen vornehmen, denn alleine über die Software und die richtigen Anpassungen kann die Leistung wohl noch deutlicher gesteigert werden.

» zur Galerie

Mit den Xeons auf Basis der Cascade-Lake-Architektur führt Intel zwei Bereiche zusammen: General Compute und die Beschleunigung von Deep-Learning-Anwendungen. Während die Rechenleistung im klassischen Bereich nahezu stagniert, können die Xeon-Scalable-Prozessoren der zweiten Generation bei DL-Boost-beschleunigten Anwendungen überzeugen. Es macht im professionellen Umfeld einen großen Unterschied, wenn eine Rechenaufgabe in der Hälfte der Zeit, einem Viertel der Zeit oder gar noch schneller erledigt werden kann.

Zeit ist Geld – dies gilt für die Anbieter und Kunden der Hardware in Cloud-Compute-Umgebungen ebenso, wie für Kunden, die sich solche Hardware in die eigenen Rechenzentren stellen.

Mit der nächsten Generation der Xeon-Prozessoren alias Cooper Lake wird Intel noch einen Schritt weiter gehen. Neben DL-Boost sollen die Prozessoren auch den neuen Datentyp BFloat16 nativ beherrschen und bei den Deep-Learning-Anwendungen noch einmal ein deutliches Leistungsplus erhalten. Zudem werden die Cooper-Lake-Xeons offenbar auf einem neuen Sockel beruhen und auch mehr Kerne bieten. Dann wird Intel auch im Bereich des General Compute wieder einen größeren Sprung machen.