Seite 9: Benchmarks: AI- und ML-Anwendungen

Wenn wir schon von komplexen Konfigurationen im Server-Bereich sprechen, dann müssen wir für die DL-Boost-Benchmarks noch einmal etwas weiter ausholen, denn hierzu mussten wir einige Vorbereitungen treffen, die weit über das hinausgehen, was wir sonst an Testumgebung haben. Unter anderen haben wir ein Open Images Dataset V6 von Google heruntergeladen, das inklusive aller Test- und Validierungs-Daten etwa 600 GB umfasst und für die Tests der Deep-Learning-Anwendungen verwendet wurde.

Für die Berechnungen zum Entrauschen eines Bildes haben wir die Moana Island Scene der Walt Disney Animation Studios geladen und den Open Image Denoise darüber laufen lassen. Die Rohdaten bringen es hier auf 50 GB. Für die Benchmarks zur Datenbankleistung wurden ebenfalls Daten im Bereich von mehreren Terabyte verwendet. Die Datenmenge als solches ist dabei nicht das Problem, aber es zeigt, dass im Serverbereich andere und komplexere Datensätze verwendet werden.

Image Inferencing <7 ms

Open Images Dataset V5 - INT8-Data

Bilder pro Sekunde
Mehr ist besser

Image Inferencing

Open Images Dataset V5 - INT8-Data

Bilder pro Sekunde
Mehr ist besser

Um ein Inferencing des DL-Netzwerkes ausführen zu können, mussten wir zunächst ein sogenanntes Residual Neural Network (ResNet) mit 50 Layern erstellen, aus dem die Kategorisierung und Zuordnung der einzelnen Bilder erfolgt. Je mehr Layer, desto genauer wird der Bildinhalt zugeordnet und kann dementsprechend später auch wiedergefunden werden.

Die Benchmarks beziehen sich aber auf das Inferencing der Daten, also die Auswertung. Dazu haben wir uns zunächst die Leistung in Bildern pro Sekunde für reine INT8-Daten angeschaut. Zwischen 40 und 50 % waren die beiden Xeon Platinum 8280 hier schon schneller als ihre Vorgänger – dank DL-Boost. Die beiden Xeon Platinum 8380 legen noch einmal eine Schippe drauf, was einerseits aufgrund der Mehrzahl an Kernen gelingt, auf der anderen Seite aber auch wegen weiterer Optimierungen im DL-Boost und dem damit einhergehenden IPC-Plus.

Image Inferencing <7 ms

Open Images Dataset V5 - FP32 zu INT8

Bilder pro Sekunde
Mehr ist besser

Image Inferencing

Open Images Dataset V5- FP32 zu INT8

Bilder pro Sekunde
Mehr ist besser

In einem zweiten Test haben wir uns angeschaut, wie hoch die Leistung ist, wenn weitaus größere FP32-Datensätze vorliegen, die ausgewertet werden müssen. Die Genauigkeit von FP32 wird in diesem Bereich eigentlich gar nicht benötigt und von der Software in INT8 überführt. Da die beiden Xeon Platinum 8180 aber keine INT8-Beschleunigung besitzen, rechneten sie weiterhin mit den FP32-Daten und waren deutlich langsamer als ihre Nachfolger Xeon Platinum 8280. Auch hier sehen wir für die beiden Xeon Platinum 8380 ein Leistungsplus durch die höhere Kernanzahl und Architekturverbesserungen.

OSPRay und Open Image Denoise

Ray Tracing

Sekunden
Weniger ist besser

Wieder etwas mehr "klassische Rechenleistung" ist für das Raytracing eines Frames aus der Moana-Island-Szene der Walt Disney Animation Studios gefragt. Dies stellt eine typische Rechenaufgabe im Bereich des Film-Renderings dar. Wir haben zunächst die Zeit aufgezeichnet, die für das Raytracing benötigt wird.

Die Auflösung des Bildes beträgt dabei 2.048 x 858 Pixel und das Pathtracing wurde in 64 Samples Per Pixel (SPP) durchgeführt. Dafür benötigen die beiden Xeon-Platinum-Prozessoren der ersten und zweiten Generation in etwa vier Minuten. Die beiden Xeon Platinum 8380 profitieren von ihren 40 Kernen und sind knapp 50 % schneller.

Um die Rechenzeit in einen Vergleich zu setzen: Verdoppeln wir die Auflösung und erhöhen die SPP auf 256, dauert die Berechnung eines Frames bereits mehrere Stunden.

OSPRay und Open Image Denoise

Entrauschen

Sekunden
Weniger ist besser

In einem weiteren Schritt wurde der Open Image Denoiser auf den Frame angewendet, um ein eventuelles Rauschen durch fehlende Samples zu entfernen. Je weniger Samples pro Pixel wir anwenden, desto größter ist das Rauschen im Bild. Der Open Image Denoiser entfernt dieses Rauschen und ersetzt die Informationen durch in einem Deep-Learning-Netzwerk trainierte Daten.

In der Dauer des Entrauschens kommen die DL-Boost-Beschleunigungen der letzten beiden Xeon-Generationen zum Tragen, denn die Xeon Platinum 8280 erledigt das Entrauschen in 11,6 s, während die beiden Xeon Platinum 8180 dazu fast zehnmal so lange benötigen. Auf den beiden Xeon Platinum 8380 dauerte dieser Vorgang nur halb so lange wie bei den direkten Vorgängern.

OSPRay und Open Image Denoise

Ray Tracing und Entrauschen

Sekunden
Weniger ist besser

Der Vorsprung, der im Entrauschen gewonnen wurde, zeigt sich natürlich auch in der Gesamtzeit der Berechnung eines Frames – dort wo das Rendering mittels Raytracing und das Entrauschen zusammengeführt werden. Nun sprechen wir hier von einem Frame in niedriger Auflösung und wenigen Samples. Man kann sich also gut vorstellen, wie lange dies für eine echte Filmproduktion dauert bzw. welcher Vorteil hier durch die Beschleunigung des Entrausch-Vorgangs gewonnen wird.