Seite 11: DL-Boost/INT8-Benchmarks

PyTorch Landmark Points

PyTorch Gesichtsdatenbank

Zeit in Sekunden
Weniger ist besser

PyTorch ist eine Open Source Deep-Learning-Plattform. Wir haben uns hier ein Beispiel für das Processing und die Analyse von Daten angeschaut und dazu eine Bilddatenbank mit mehreren Gesichtern analysieren lassen. Für jedes Gesicht werden automatisch 68 sogenannten Landmarks festgelegt, um eine Charakterisierung vorzunehmen. Wir haben die mittlere Dauer für die Analyse eines jeden Gesichtes aus dieser Datenbank aufgenommen.

Die Datenanalyse erfolgte auf Basis von INT8-Daten, sodass der Xeon W-3275 von seiner DL-Boost-Beschleunigung profitieren kann. Ein einzelner Xeon W-3275 ist hier sogar schneller als zwei Xeon Platinum 8180.

Image Inferencing <7 ms

Open Images Dataset V5 - INT8-Data

Bilder pro Sekunde
Mehr ist besser

Image Inferencing

Open Images Dataset V5 - INT8-Data

Bilder pro Sekunde
Mehr ist besser

Auch der nächste Benchmark ist im Bereich der Deep-Learning-Anwendungen zu verorten. Hier haben wir das Open Images Dataset V5 mit einer Größe von 500 GB und mehreren zehntausend Bildern durch einen Deep-Learning-Algorithmus trainieren lassen, was mehrere Tage in Anspruch genommen hat. In einem Residual Neural Network (ResNet) mit 50 Layern erfolgt die Kategorisierung und Zuordnung der einzelnen Bilder. Je mehr Layer, desto genauer wird der Bildinhalt zugeordnet und kann dementsprechend später auch wiedergefunden werden.

Die Benchmarks beziehen sich aber nicht ausschließlich auf das Inferencing der Daten, also die Auswertung mittels INT8-Daten, sondern stellte eine Mischung aus hoher und geringer Genauigkeit dar. Auch hier spielt die Beschleunigung mittels DL-Boost eine Rolle, aber keine entscheidende. Dennoch bietet die Cascade-Lake-Modelle ein Leistungsplus zwischen 40 und 50 %.

Image Inferencing <7 ms

Open Images Dataset V5 - FP32 zu INT8

Bilder pro Sekunde
Mehr ist besser

Image Inferencing

Open Images Dataset V5- FP32 zu INT8

Bilder pro Sekunde
Mehr ist besser

In einem zweiten Test haben wir uns angeschaut, wie hoch die Leistung ist, wenn weitaus größere FP32-Datensätze vorliegen, die ausgewertet werden müssen. Die Genauigkeit von FP32 wird in diesem Bereich eigentlich gar nicht benötigt und von der Software in INT8 überführt. Da die beiden Xeon Platinum 8180 und der Xeon W-3175X aber keine INT8-Beschleunigung besitzen, rechnen sie weiterhin mit den FP32-Daten und sind deutlich langsamer als ihre Nachfolger. Wir sprechen hier von fast der vierfachen Leistung unter Verwendung der neueren Modelle.

OSPRay und Open Image Denoise

Ray Tracing

Sekunden
Weniger ist besser

Wieder etwas mehr klassische Rechenleistung ist für das Ray Tracing eines Frames aus der Moana-Island-Szene der Walt Disney Animation Studios gefragt. Dies stellt eine typische Rechenaufgabe im Bereich des Film-Renderings dar. Wir haben zunächst die Zeit aufgezeichnet, die für das Ray Tracing benötigt wird.

Die Auflösung des Bildes beträgt dabei 2.048 x 858 Pixel und das Path Tracing wurde in 64 Samples Per Pixel (SPP) durchgeführt. Um die Rechenzeit in einen Vergleich zu setzen: Verdoppeln wir die Auflösung und erhöhen die SPP auf 256, dauert die Berechnung eines Frames bereits mehrere Stunden. Die Dual-Sockel-Xeon-Modelle sind hier natürlich im Vorteil, da sie die doppelte Anzahl an Kernen besitzen. Der Xeon W-3175X bietet den höheren Takt und ist daher etwas schneller als der Xeon W-3275.

OSPRay und Open Image Denoise

Entrauschen

Sekunden
Weniger ist besser

In einem weiteren Schritt wurde der Open Image Denoiser auf den Frame angewendet, um ein eventuelles Rauschen durch fehlende Samples zu entfernen. Je weniger Samples pro Pixel wir anwenden, desto größter ist das Rauschen im Bild. Der Open Image Denoiser entfernt dieses Rauschen und ersetzt die Informationen durch in einem Deep-Learning-Netzwerk trainierte Daten.

In der Dauer des Entrauschens kommen die DL-Boost-Beschleunigungen der Xeon Platinum 8280 und des Xeon W-3275 zum Tragen. Die Workstation mit einem Xeon W-3275 erledigt das Entrauschen in 23,1 s, während ein Xeon W-3175X dazu fast zehnmal so lange benötigt.

OSPRay und Open Image Denoise

Ray Tracing und Entrauschen

Sekunden
Weniger ist besser

Der Vorsprung, der im Entrauschen gewonnen wurde, zeigt sich natürlich auch in der Gesamtzeit der Berechnung eines Frames. Nun sprechen wir hier von einem Frame in niedriger Auflösung und wenigen Samples. Man kann sich also gut vorstellen, wie lange dies für eine echte Filmproduktion dauert bzw. welcher Vorteil hier durch die Beschleunigung des Entrausch-Vorgangs gewonnen wird.