1. Hardwareluxx
  2. >
  3. News
  4. >
  5. Hardware
  6. >
  7. Grafikkarten
  8. >
  9. NVIDIA schließt Übernahme von Mellanox ab und gibt Hinweise auf Ampere-Architektur

NVIDIA schließt Übernahme von Mellanox ab und gibt Hinweise auf Ampere-Architektur

Veröffentlicht am: von

nvidiaNVIDIA hat die Übernahme von Mellanox nun abgeschlossen. Bereits im März 2019 wurden die Pläne bekannt, aber in solchen Größenordnungen ist es üblich, dass sich die weiteren Verhandlungen, auch mit Wettbewerbshütern, einige Monate hinziehen.

Im Rahmen der Übernahme hat NVIDIAs CEO Jen-Hsun Huang TheNextPlatform nun ein Interview gegeben, welches einige interessante Hinweise enthält. Diese verweisen auch auf mögliche Neuigkeiten, die man auf der nachzuholenden Keynote der GPU Technology Conference am 14. Mai präsentieren wird.

Mit dem Kauf von Mellanox will sich NVIDIA im Datencenter-Segment besser aufstellen. Mit den Tesla-GPGPUs stellt man bereits die notwendige Rechenleistung in Form von Hardware zur Verfügung, die man untereinander auch per NVLink verbindet, eine externe Anbindung aber findet über Lösungen statt, an denen Mellanox bisher einen Maßgeblichen Anteil hatte. Im Interview ist die Wichtigkeit der schnellen Verbindungen untereinander auch der Fokus des Gesprächs. Daten sollten wenn möglich gar nicht von A nach B bewegt werden und wenn doch sollten sie entsprechend optimiert sein. Sogenannten SmartNICs sollen die Daten entsprechend vorbereiten.

Die Wichtigkeit immer schnellerer Interconnect-Technologien zeigt sich in allen Bereichen des Datacenter-Marktes. Inzwischen zeichnet sich eine Etablierung des CXL-Interconnects über die verschiedenen Herstellern hinweg ab. Gen-Z soll als weiterer offener Standard die Verbindung zwischen den Nodes und Racks übernehmen. Eben in diesem Bereich ist Mellanox aktiv.

Was sich nun abzeichnet ist, dass NVIDIA solche Interconnect- bzw. Netzwerktechnologie tiefer in die eigenen GPGPUs integriert. Die Prozessoren sollen als Management-Ebene für diese Techniken weitestgehend überflüssig werden. Der Trainings-Beschleuniger Gaudi von Habana Labs bietet beispielsweise zehn 100-GBit/s-Netzwerkinterconnects. Für Habana Labs ist eine möglichst schnelle und Latenzfreie Netzwerkanbindung ein essentieller Bestandteil für solche Hardware.

Welche Integration NVIDIA für Techniken von Mellanox wird vornehmen müssen, wird sich wohl am 14. Mai zeigen. Mellanox wird laut Huang weiter eine eigenständige Business-Sparte bleiben, die auch eigenständig weiter betrieben wird. Wir werden Mellanox also weiterhin mit anderen Unternehmen zusammenarbeiten sehen.

Hinweise zu Ampere

Außerdem spricht Huang von einer größeren Flexibilität zukünftiger AI-Beschleuniger. Derzeit sieht man die Tesla-V100-Beschleuniger für das Training von Deep-Learning-Netzwerken vor, während das Inferencing am besten auf den Turing-Karten (Tesla T4) läuft. Die Volta-Architektur ist grundsätzlich auf HPC-Leistung mit hoher Genauigkeit optimiert, bietet aber auch schon einige Tensor-Kerne.

"Today our Volta GPUs are really designed for scale up training and our Turing GPUs are designed for scale out inference. They are fine in the beginning of the AI revolution. But if you want your datacenter to be completely programable, then the processors there – including the GPUs – really want to be a lot more flexible."

Dies kann nun als Hinweis verstanden werden, dass NVIDIAs Ampere-Architektur deutlich flexibler werden wird, als dies aktuell mit der Trennung in Volta und Turing der Fall ist. 

Gegenüberstellung der Architekturen
VoltaTuring
GPUV100TU102
FP64-Kerne / SM322
FP64-Kerne / GPU 2.560144
Tensor-Kerne / SM 88
Tensor-Kerne / GPU

640

576
FP64-Rechenleistung 8,2 TFLOPS510 GFLOPS
FP32-Rechenleistung 16,4 TFLOPS16,3 TFLOPS
FP16-Rechenleistung 32,8 TFLOPS32,6 TFLOPS
INT8-Rechenleistung 130 TOPS261 TOPS
INT4-Rechenleistung 260 TOPS522 TOPS
Speicher 32 GB HBM2
4.096 Bit
1.134 GB/s
48 GB GDDR6
384 Bit
672 GB/s

Die Gegenüberstellung der Volta- und Turing-Architektur zeigt die Unterschiede recht deutlich. In der Volta-Architektur sieht NVIDIA 32 FP64-Kerne pro Streaming Multiprocessor (SM) vor, in der Turing-Architektur sind es nur zwei. Dementsprechend ist die FP64-Rechenleistung in der Turing-Architektur sehr gering. Für FP32 und FP16 liegen die Architekturen in den höchsten Ausbaustufen in etwa gleichauf.

Die Tensor-Kerne hat NVIDIA in der Turing-Architektur dahingehend optimiert, dass sie im INT8 Precision Mode die doppelte Leistung einer FP-Berechnung bieten: 2.048 Integer-Operationen pro Takt. Daher auch die hohe Rechenleistung bei niedriger Genauigkeit. Die Tensor-Kerne können bei GPUs mit der Volta- und Turing-Architektur auch in FP16-Berechnungen unterstützen. Obige Tabelle zeigt nur erreichten TFLOPS durch die Shadereinheiten.