Seite 4: Server-Benchmarks

Auf die Workstation-Benchmarks folgen nun die eher serverseitigen Anwendungen. Hierzu mussten wir einige Vorbereitungen treffen, die weit über das hinausgehen, was wir sonst an Testumgebung haben. Unter anderen haben wir ein Open Images Dataset V5 von Google heruntergeladen, das etwa 500 GB umfasst und für die Tests der Deep-Learning-Anwendungen verwendet wurden.

Für die Berechnungen zum Entrauschen eines Bildes haben wir die Moana Island Scene der Walt Disney Animation Studios geladen und den Open Image Denoise darüber laufen lassen. Die Rohdaten bringen es hier auf 50 GB. Für die Benchmarks zur Datenbankleistung wurden ebenfalls Daten im Bereich von mehreren Terabyte verwendet. Die Datenmenge als solches ist dabei nicht das Problem, aber es zeigt, dass im Serverbereich andere und komplexere Datensätze verwendet werden.

Neben Windows 10 kam dabei auch ein Linux-System zum Einsatz. Wir haben dazu ein ClearLinux verwendet. Hinzu kommen diverse Frameworks und Programm-Bibliotheken, auf die wir noch genauer eingehen werden. Die Intel Math Kernel Library ist beispielsweise in wichtiger Bestandteil und Basis vieler Benchmarks.

Auf viele Aspekte für die Leistung eines Serversystems können wir zum jetzigen Zeitpunkt aber noch nicht vollumfänglich eingehen, da sich dieser Bereich redaktionell noch im Aufbau befindet. Wir wollen auch noch einmal klarstellen, dass die gewonnen Daten extrem davon abhängig sind, wie genau die einzelnen Benchmarks und Anwendungen optimiert worden sind. Gerade bei eher praxisrelevanten Workloads wie den Datenbanken gibt es hunderte Stellschrauben, an denen gedreht werden kann. Einfache One-Klick-Benchmarks gibt es bei den Servernanwendungen so gut wie nicht.

Integer-Rechenleistung

Linpack C++

GFLOPS
Mehr ist besser

Fließkomma-Rechenleistung

Linpack C++

GFLOPS
Mehr ist besser

Zunächst einmal haben wir uns die rohe Rechenleistung der Systeme angeschaut. Dazu haben wir ein Linpack laufen lassen und die Werte verglichen. Das leichte Taktplus der Xeon Platinum 8280 gegenüber dem Vorgänger zeigt sich hier durch ein leichtes Leistungsplus. Große Sprünge waren aber auch nicht zu erwarten.

Stream Speicherbenchmark

Copy

GB/s
Mehr ist besser

Stream Speicherbenchmark

Triad

GB/s
Mehr ist besser

Als nächstes schauen wir uns die Speicherbandbreite an. Beide Systeme verfügen über ein Speicherinterface mit sechs Kanälen. Der Xeon Platinum 8180 spricht den DDR4-Speicher mit 2666 MHz an, der Xeon Platinum 8280 mit 2933 MHz und entsprechend sehr wir auch einen Unterschied in der Speicherbandbreite. Der Xeon Platinum 8280 bietet eine um 15 % höhere Speicherbandbreite, hat es damit aber noch immer schwer gegen das Achtkanal-Speicherinterface eines aktuellen AMD EPYC 7601, der noch einmal rund ein Drittel mehr Speicherbandbreite bietet.

PyTorch Landmark Points

PyTorch Gesichtsdatenbank

Zeit in Sekunden
Weniger ist besser

PyTorch ist eine Open Source Deep-Learning-Plattform. Wir haben uns hier ein Beispiel für das Processing und die Analyse von Daten angeschaut und dazu eine Bilddatenbank mit mehreren Gesichtern analysieren lassen. Für jedes Gesicht werden automatisch 68 sogenannten Landmarks festgelegt, um eine Charakterisierung vorzunehmen. Wir haben die mittlere Dauer für die Analyse eines jeden Gesichtes aus dieser Datenbank aufgenommen. Die Datenanalyse erfolgte auf Basis von INT8-Daten, sodass die beiden Xeon Platinum 8280 von ihrer DL-Boost-Beschleunigung profitieren konnten.

Image Inferencing < 7 ms

Open Images Dataset V5 - INT8-Data

Bilder pro Sekunde
Mehr ist besser

Image Inferencing

Open Images Dataset V5 - INT8-Data

Bilder pro Sekunde
Mehr ist besser

Auch der nächste Benchmark ist im Bereich der Deep-Learning-Anwendungen zu verorten. Hier haben wir das Open Images Dataset V5 mit einer Größe von 500 GB und mehreren zehntausend Bildern durch einen Deep-Learning-Algorithmus trainieren lassen, was mehrere Tage in Anspruch genommen hat. In einem Residual Neural Network (ResNet) mit 50 Layern erfolgt die Kategorisierung und Zuordnung der einzelnen Bilder. Je mehr Layer, desto genauer wird der Bildinhalt zugeordnet und kann dementsprechend später auch wiedergefunden werden.

Die Benchmarks beziehen sich aber auf das Inferencing der Daten, also die Auswertung. Dazu haben wir uns zunächst die Leistung in Bildern pro Sekunde für reine INT8-Daten angeschaut. Zwischen 40 und 50 % sind die beiden Xeon Platinum 8280 hier schneller als ihre Vorgänger. Auch hier spielt die Beschleunigung mittels DL-Boost eine wichtige Rolle.

Image Inferencing < 7 ms

Open Images Dataset V5 - FP32 zu INT8

Bilder pro Sekunde
Mehr ist besser

Image Inferencing

Open Images Dataset V5- FP32 zu INT8

Bilder pro Sekunde
Mehr ist besser

In einem zweiten Test haben wir uns angeschaut, wie hoch die Leistung ist, wenn weitaus größere FP32-Datensätze vorliegen, die ausgewertet werden müssen. Die Genauigkeit von FP32 wird in diesem Bereich eigentlich gar nicht benötigt und von der Software in INT8 überführt. Da die beiden Xeon Platinum 8180 aber keine INT8-Beschleunigung besitzen, rechnen sie weiterhin mit den FP32-Daten und sind deutlich langsamer als ihre Nachfolger. Wir sprechen hier von der vierfachen Leistung, was ein deutlicher Sprung ist.

OSPRay und Open Image Denoise

Ray Tracing

Sekunden
Weniger ist besser

Wieder etwas mehr "klassische Rechenleistung" ist für das Ray Tracing eines Frames aus der Moana-Island-Szene der Walt Disney Animation Studios gefragt. Dies stellt eine typische Rechenaufgabe im Bereich des Film-Renderings dar. Wir haben zunächst die Zeit aufgezeichnet, die für das Ray Tracing benötigt wird.

Die Auflösung des Bildes beträgt dabei 2.048 x 858 Pixel und das Path Tracing wurde in 64 Samples Per Pixel (SPP) durchgeführt. Dafür benötigen die beiden Xeon-Platinum-Prozessoren in etwa vier Minuten, wobei die neueren Xeon Platinum 8280 etwas schneller rechneten.

Um die Rechenzeit in einen Vergleich zu setzen: Verdoppeln wir die Auflösung und erhöhen die SPP auf 256, dauert die Berechnung eines Frames bereits mehrere Stunden.

OSPRay und Open Image Denoise

Entrauschen

Sekunden
Weniger ist besser

In einem weiteren Schritt wurde der Open Image Denoiser auf den Frame angewendet, um ein eventuelles Rauschen durch fehlende Samples zu entfernen. Je weniger Samples pro Pixel wir anwenden, desto größter ist das Rauschen im Bild. Der Open Image Denoiser entfernt dieses Rauschen und ersetzt die Informationen durch in einem Deep-Learning-Netzwerk trainierte Daten.

In der Dauer des Entrauschens kommen die DL-Boost-Beschleunigungen der Xeon Platinum 8280 zum Tragen, denn das System erledigt das Entrauschen in 11,6 Sekunden, während die beiden Xeon Platinum 8180 dazu fast zehnmal so lange benötigen.

OSPRay und Open Image Denoise

Ray Tracing und Entrauschen

Sekunden
Weniger ist besser

Der Vorsprung, der im Entrauschen gewonnen wurde, zeigt sich natürlich auch in der Gesamtzeit der Berechnung eines Frames. Nun sprechen wir hier von einem Frame in niedriger Auflösung und wenigen Samples. Man kann sich also gut vorstellen, wie lange dies für eine echte Filmproduktion dauert bzw. welcher Vorteil hier durch die Beschleunigung des Entrausch-Vorgangs gewonnen wird.

Hadoop Datenbank-Leistung

k-Means Clusteranalyse

Zeit in Sekunden
Weniger ist besser

Hadoop Datenbank-Leistung

Sort

Zeit in Sekunden
Weniger ist besser

Hadoop Datenbank-Leistung

Terasort

Zeit in Sekunden
Weniger ist besser

Zum Abschluss haben wir noch einige Datenbank-Benchmarks ausgeführt. Auf diesen Daten haben wir verschiedene Sort-Algorithmen angewendet. Für K-Means werden aus einer Menge von ähnlichen Objekten eine vorher bekannte Anzahl von k Gruppen gebildet. Sort führt eine einfache Sortierung durch. Für Terasort werden genau 1 Terabyte an Daten sortiert.

Aufgezeichnet haben wir die benötigte Zeit um den Sort-Algorithmus auszuführen. Im Falle der von uns verwendeten Datenbank wurden die Daten nicht alle in den Arbeitsspeicher abgelegt, da dieser nur 384 GB groß ist. Zwischen den Skylake- und Cascade-Lake-Xeons gibt es nur geringe Unterschiede in der Leistung, die auf dem Taktplus der Xeon Platinum 8280 beruhen.

Die neuen Cascade-Lake-Xeons können im Bereich der Datenbanken vor allem dann profitieren, wenn diese komplett in den Arbeitsspeicher bzw. auf den Optane DC Persistent Memory abgelegt werden. Wir sprechen hier aber von Anwendungen, die mehrere Terabyte an Daten umfassen und kostengünstiger in Server mit einer Kombination aus Arbeitsspeicher und Optane DC Persistent Memory abgelegt werden können.