> > > > NVIDIA Tesla P4 und P40 werten Daten aus Deep-Learning-Netzwerken aus

NVIDIA Tesla P4 und P40 werten Daten aus Deep-Learning-Netzwerken aus

DruckenE-Mail
Erstellt am: von

tesla p4 teaserDeep-Learning-Netzwerke definieren bereits viele Bereiche unserer Aktivitäten im Netz. Unter Deep Learning werden aber auch viele Funktionen zusammengefasst, die mit künstlicher Intelligenz in einen Zusammenhang gebracht werden, der mit dem eigentlichen Begriff und der Funktion von AI wenig zu tun haben. Dennoch werden Deep-Learning-Netzwerke in Zukunft weite Bereiche der Nutzung von Daten aus dem Internet definieren und auf diesen Umstand haben sich auch einige Hardwarefirmen bereits eingestellt.

Intel will mit den Xeon-Phi-GPU-Beschleunigern in diesem Segment ebenso eine Rolle spielen wie Google, die dazu sogar eine eigene TPU, also einen eigenen Chip entwickelt haben. Als einer der Vorreiter sieht sich dabei aber NVIDIA. Die Rechenleistung moderner GPUs lässt sich nicht nur nutzen um Dreiecke zu zeichnen und diese mit Texturen zu belegen, sondern auch dazu viele wenig komplexe Rechenaufgaben parallel zu verarbeiten – eben diese Anforderungen stellen Deep-Learning-Netzwerke an die Hardware.

NVIDIA Tesla P4 und Tesla P40
NVIDIA Tesla P4 und Tesla P40

Dabei stellen Deep-Learning-Netzwerke in zwei Bereichen solche Anforderungen an die Hardware. Erst einmal muss ein solches Netzwerk angelernt werden. Dies wird notwendig um beispielsweise Milliarden an Fotos bestimmten Kategorien zuzuordnen. Was ist darauf zu sehen? In welcher Beziehung steht ein Vogel auf dem Bild zum restlichen Tierreich bzw. welcher Gattung gehört er an. Eine solche Bilddatenbank wird schnell extrem komplex und beinhaltet mehrere Milliarden Knoten, die miteinander verknüpft sind. Diese Verbindungen werden im Anlernprozess für ein Deep-Learning-Netzwerk erstellt und dazu ist eine enorme Rechenleistung notwendig, damit ein Anlernen nicht mehrere Monate oder Tage dauert, sondern eventuell nur noch wenige Stunden. Zu diesem Zweck hat NVIDIA den DGX-1 entwickelt. Dabei handelt es sich um ein Rack, in dem acht Tesla P100 auf Basis der Pascal-Architektur arbeiten. Mit jeweils 3.584 Shadereinheiten, einem 16 GB großen HBM2 und einer Speicherbandbreite von 720 GB/s sind die P100-GPUs prädestiniert um solche Rechenaufgaben zu erledigen.

NVIDIA Tesla P4 und Tesla P40NVIDIA Tesla P4 und Tesla P40

NVIDIA Tesla P4 und Tesla P40

Tesla P4 und P40 beschleunigen die Auswertung von Deep-Learning-Netzwerken

Soweit die eine Seite der Anforderungen hinsichtlich der Hardware zu Verwendung eines Deep-Learning-Netzwerkes. Eine zweite wird als Inferencing bezeichnet und dabei handelt es sich um den Zugriff auf die im Deep-Learning-Netzwerk vorhandenen Informationen. Auch dabei kommt es darauf an die Daten so schnell wie möglich zu extrahieren und auch dazu sind viele parallele Rechenprozesse notwendig. Zu diesem Zweck stellt NVIDIA heute die GPU-Beschleuniger Tesla P4 und P40 vor.

Auf eine Anfrage an das Netzwerk soll nicht mehr Sekunden gewartet werden müssen, sondern nur noch wenige Bruchteile einer Sekunde – so das erklärte Ziel. Die Wartezeit zu verkürzen ist vor allem dann wichtig, wenn der Nutzer einen direkten Zugang zu den Anfragen hat bzw. diese selbst stellt. Einige Beispiele sind die Suche nach einem bestimmten Restaurant in der Nähe per Spracheingabe, wo zunächst ein Deep-Learning-Netzwerk zu Übersetzung der Sprache verwendet wird und anschließend daran auch die eigentliche Suche nach dem Restaurant in einem solchen Netzwerk stattfinden kann. Hier will der Nutzer sicherlich nicht wenige Sekunden auf eine Antwort warten, sondern diese schnellstmöglich erhalten.

NVIDIA Tesla P4 und Tesla P40NVIDIA Tesla P4 und Tesla P40

NVIDIA Tesla P4 und Tesla P40

Doch kommen wir nun zur Hardware und beginnen dabei mit der Tesla P4. Diese ist besonders kompakt und soll daher auch dort zum Einsatz kommen, wo der Fokus nicht vollends auf der Geschwindigkeit liegt, sondern auch die Effizienz ein wichtiger Faktor im Aufbau des Servers darstellt. Die Tesla P4 basiert auf der GP104 wie bei der GeForce GTX 1080, ist aber deutlich kompakter gebaut. Damit dies mit einer ebenso kompakten Kühlung funktioniert, sind die 2.560 Shadereinheiten extrem langsam getaktet. NVIDIA sieht zur Ermittlung des Taktes bzw. der Rechenleistung zwei Verfahren vor. Als P4 Base (definiert als SGEMM) erreicht die Tesla P4 einen GPU-Takt von 810 MHz was einer Rechenleistung von 16,6 TOPS (INT8) gleichkommt. Die Rechenleistung bei einfacher Genauigkeit liegt dann bei 4,15 TFLOPS. Als P4 Boost (definiert als 70 % SGEMM) erreicht die Tesla P4 einen Boost-Takt von 1.063 MHz oder 21,8 TOPS (INT8). Die Single-Precision-Rechenleistung beträgt dann 5,5 TFLOPS. Die 8 GB GDDR5-Speicher erreichen eine Speicherbandbreite von 192 GB/s. Die Leistungsaufnahme beträgt je nach Anforderungsprofil 50 oder 75 W. In Anbetracht der Verwendung der GP104-GPU klingen diese 50/75 W sehr wenig und dies unterstreicht einmal mehr die mit der neuen Fertigung und der Pascal-Architektur erreichte Effizienz bei NVIDIA.

NVIDIA Tesla P4 und Tesla P40
NVIDIA Tesla P4 und Tesla P40

Zweite neue Karte ist die Tesla P40. Hier kommt mit der GP102-GPU die gleiche Hardware zum Einsatz wie auf der Titan X oder der Quadro P6000. Bei der Tesla P40 ermöglicht NVIDIA mit 250 W aber eine deutlich höhere Leistungsaufnahme und daher ist diese Karte auch eher dort sinnvoll, wo nicht jedes Watt eingespart werden muss. Natürlich aber bietet auch die Tesla P40 zwei Taktstufen. Der Basis-Takt beläuft sich auf 1.303 MHz und damit werden 40 TOPS (IN8) bzw. 10 TFLOPS bei einfacher Genauigkeit. Per Boost-Takt von 1.531 MHz erreicht die Karte mit 47 TOPS (INT8) und 12 TFLOPS ihre maximale Leistung. Der Speicher ist mit 24 GB recht großzügig bemessen und mit 346 GB/s auch recht schnell angebunden.

NVIDIA Tesla P4 und Tesla P40NVIDIA Tesla P4 und Tesla P40

NVIDIA Tesla P4 und Tesla P40

NVIDIA liefert auch gleich einige Leistungswerte für das Inferencing eines Deep-Learning-Netzwerkes. Während eine Intel CPU mit 14 Kernen dazu 260 ms benötigen soll, sind es bei der Tesla P4 nur noch 11 ms und bei der Tesla P40 sollen es sogar nur 6 ms. Um ein Video auf bestimmte Inhalte zu untersuchen werden ebenfalls Deep-Learning-Netzwerke eingesetzt und auch hier hat NVIDIA einige Leistungsdaten geliefert. Ein Server mit einer Tesla P4 soll beispielsweise etwas mehr als 90 Streams (720p bei 30 FPS) gleichzeitig analysieren können, während dazu 13 Server mit Intel Xeon E5-2650 notwendig wären. In wie weit solche Leistungsvergleiche auch in der Realität zu sehen sind, sei einmal dahingestellt.

NVIDIA arbeitet mit zahlreichen Serveranbietern zusammen, die entsprechende Systeme bestückt mit der Tesla P40 ab Oktober anbieten wollen, während solche mit Tesla P4 erst im November folgen werden. Angaben zum Preis macht NVIDIA zum aktuellen Zeitpunkt nicht.

NVIDIA Tesla P4 und Tesla P40NVIDIA Tesla P4 und Tesla P40

NVIDIA Tesla P4 und Tesla P40

Mit der Vorstellung der Tesla P4 und P40 sieht NVIDIA den Kreis für das Anlernen und Auswerten von Deep-Learning-Netzwerken vorerst geschlossen und verweist auch auf die enormen Leistungssteigerungen in diesen Bereichen.

Social Links

Kommentare (2)

#1
customavatars/avatar181437_1.gif
Registriert seit: 30.10.2012
Mittelfranken
Hauptgefreiter
Beiträge: 236
Den Artikel konnte man schon gestern lesen, doch dann verschwand dieser für einen Tag.
Bug oder NDA?
#2
customavatars/avatar3377_1.gif
Registriert seit: 15.11.2002
www.twitter.com/aschilling
[printed]-Redakteur
Tweety
Beiträge: 29102
Da war ein falsches Datum eingestellt.
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

Roundup: 5x GeForce GTX 1070 mit Custom-Design im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/5X-GTX1070/GTX1070_CUSTOM_ROUNDUP-TEASER

Nachdem wir bereits eine Reihe von Boardpartner-Karten der NVIDIA GeForce GTX 1080 ausführlich getestet haben, holen wir gleiches nun für das kleinere Schwestermodell nach, denn auch von der NVIDIA GeForce GTX 1070 gibt es viele Custom-Modelle mit höheren Taktraten, eigenen Kühlsystemen und... [mehr]

Drei Custom-Modelle der GeForce GTX 1060 im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/3X-GTX1060/GTX1060_ROUNDUP_TEST-TEASER

Anders als bei der GeForce GTX 1080 und GeForce GTX 1070 trudelten wenige Stunden nach unserem Test zur Founders Edition der NVIDIA GeForce GTX 1060 schon die ersten Boardpartner-Karten mit teils höheren Taktraten, eigenem Kühlsystem und überarbeitetem Platinenlayout ein. Sie dürften... [mehr]

NVIDIA GeForce GTX 1080 mit Pascal-Architektur im XXL-Test

Logo von IMAGES/STORIES/LOGOS-2016/GEFORCE-GTX-1080

Heute ist es soweit: NVIDIA läutet mit der GeForce GTX 1080 und GTX 1070 auf Basis der Pascal-Architektur den diesjährigen Neustart bei den Grafikkarten ein. In Kürze wird wohl auch AMD seinen Beitrag zu diesem Thema leisten. Vor zehn Tagen lud NVIDIA die gesammelte Fachpresse nach Austin ein... [mehr]

Roundup: 5x GeForce GTX 1080 im Custom-Design im Test

Logo von IMAGES/STORIES/LOGOS-2016/GEFORCE-GTX-1080

Nachdem wir uns die Founders Edition der GeForce GTX 1080 und GeForce GTX 1070 bereits angeschaut haben, folgen nun fünf Retail-Modelle, die wir in aller Ausführlichkeit unter die Lupe nehmen wollen. Aus den vielen Boardpartnern und unterschiedlichen Modellen haben wir uns solche von ASUS, EVGA,... [mehr]

AMD Radeon RX 480 im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/RADEON-RX480/RADEON-RX480-REFERENCE-LOGO

Es ist also soweit: AMD startet die großangelegte Zurückeroberung des Grafikkartenmarktes mit der Radeon RX 480, die als erste Grafikkarte der Polaris-Generation mit gleichnamiger Architektur erscheint und die wir uns genauer anschauen können. Dabei versucht sich AMD an einem anderen Ansatz im... [mehr]

PowerColor Radeon RX 480 Red Devil im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/POWERCOLOR-RX480/POWERCOLOR-RX480REDDEVIL-LOGO

Mit der Radeon RX 480 will AMD zurück zu alter Stärke und hat daher über Monate hinweg die PR-Trommel geschlagen. Letztendlich dabei herausgekommen ist eine sehr gute Karte für einen niedrigen Preis, die aber nicht in allen Bereichen zu überzeugen weiß. Wohl größtes Manko der Karte sollte... [mehr]