1. Hardwareluxx
  2. >
  3. News
  4. >
  5. Hardware
  6. >
  7. Prozessoren
  8. >
  9. Das Netzwerk als Rückgrat: Habana Labs' Gaudi liefert 1 TBit/s an Anbindung

Das Netzwerk als Rückgrat: Habana Labs' Gaudi liefert 1 TBit/s an Anbindung

Veröffentlicht am: von

habana-labsBis Anfang diesen Jahres fuhr Intel zweigleisig, wenn es um dedizierte Hardware für das Inferencing und Training von Deep-Learning-Netzwerken ging. Aber der Chipgigant hat Nervana aufs Abstellgleis geschickt und sich für Habana Labs entschieden. Die hier bereits begonnen Entwicklung von Hard- und Software soll in den kommenden Jahren den Pfad zu dedizierten AI-Beschleunigern ebnen.

Mit den genaueren Details zum Goya-Chip für das Inferencing und dem Gaudi-Chip für das Training von Deep-Learning-Netzwerken haben wir uns schon beschäftigt. Die Goya-Chips werden inzwischen ausgeliefert, für Gaudi spricht Habana Labs noch immer von einem Sampling. Die Fertigung beider Chips findet bei TSMC in 16 nm statt. Über zukünftige Produkte spricht man zum aktuellen Zeitpunkt noch nicht.

In einem Video aus dem Dezember des vergangenen Jahres erläutert Eran Dagan, Product Marketing bei Habana Labs, die Skalierung des Gaudi-Chips, was vor allem über die Netzwerkanbindung gelingen soll. Doch zunächst ein paar grundsätzliche Informationen zu den Chips:

Gaudi und Goya setzen auf spezielle Tensor Processing Cores (TPCs), die wie die Tensor-Cores von NVIDIA Vektor- bzw. Matrixberechnungen ausführen können und dabei gegebenenfalls geringere Genauigkeit wie INT4- und INT8-Berechnungen sowie geringere Komplexität wie durch Bflout16 setzen.

Für Gaudi sind 32 GB an schnellem HBM2 verbaut. Goya kommt mit DDR4-Speicher und einem 128 Bit breiten Speicherinterface aus. Der Gaudi-Chip bietet zudem ein On-Die 100-GbE-Fabric mit der Unterstützung von RDMA über Converged Ethernet (ROCE). Damit lässt sich die Hardware per Mellanox NIC in einen Datacenter-Interconnect einbinden und die Lösung skaliert für mehrere tausend Nodes.

Die Netzwerkanbindung im Detail

Der Gaudi-Chip wird in zwei unterschiedlichen Hardware-Varianten angeboten werden. Die HL-205 Mezzaine Card (ähnlich wie ein NVIDIA SMX2-Modul aufgebaut), darf sich bis zu 300 W genehmigen und bietet 10x 100-GBit/s- oder 20x 50-GBit/s-Netzwerkinterconnects an. Zusammengenommen sprechen wir also von 1 TBit/s an Netzwerkbandbreite.

Die HL-200/202 PCI-Express-Karte kommt etwas abgespeckter daher und bietet 8x 100-GBit/s- oder 16x 50-GBit/s-Netzwerkinterconnects – zusammengenommen also 800 GBit/s. Dies klingt nach extrem viel Netzwerkbandbreite für einen AI-Chip. Eine V100-GPU von Tesla bietet keine direkte Netzwerkschnittstelle. Stattdessen werden die GPU-Beschleuniger per PCI-Express oder NVLink an das restliche System angebunden. Im Falle von NVIDIA kann dies innerhalb eines Rechenknotens mit NVLink geschehen, darüber hinaus aber kommen Netzwerk-Adapter von Mellanox zum Einsatz. Nicht ohne Grund hat sich NVIDIA Mellanox einverleibt. Diesen Umweg, der zusätzliche Komplexität und Latenzen und damit Engpässe hinzufügt, umgeht Habana Labs mit einer direkten Integration.

Wie man bei Habana Labs diese Netzwerkverbindungen nutzt, zeigt sich im Habana Labs System-1 (HLS-1). Das HLS-1 besteht aus acht HL-205 OAM-Modulen und zwei PCI-Express-Swichtes. 

Im HLS-1 sind alle acht Gaudi-Module direkt miteinander verbunden. Dazu verwendet Habana Labs ein All-to-All Direct-Rounting auf PCB-Ebene. Alle acht Gaudi-Module sind also per 100GbE direkt miteinander verbunden. Die verbleibenden drei Ports pro Gaudi-Modul werden über Ethernet-Ports dazu verwendet, eine Außenanbindung sicherzustellen.

Es handelt sich bei der eben beschriebenen Lösung um die einfache System-Topologie für ein singuläres System. Wenn mehrere HLS-1 verwendet werden sollen, bietet Habana Labs anderen Lösungen an. So gibt es ein Gaudi-System mit einem On-Board Ethernet-Switch. Hier werden 7x 100GbE von jedem Gaudi-Modul an den Switch geliefert. Dieser Switch nimmt 64x 100GbE-Verbindungen entgegen. 8x 100GbE stehen zur Außenanbindung zur Verfügung.

In der Hyper-Cube Mesh-System-Topologie wiederum gibt es wieder direkte Verbindungen zwischen den Gaudi-Modulen, aber in reduzierter Form. Eine möglichst schnelle Anbindung der HLS-1-Systeme untereinander ist ebenso wichtig, wie eine schnelle interne Kommunikation. Daher spricht Habana Labs hier eben von einem Mesh-System, welches einen hybriden Ansatz mit umfasst.

Je mehr HLS-1-Systeme zusammengefasst werden sollen, desto komplexer wird die Netzwerkinfrastruktur. HLS-1-Systeme werden mit 1,6 TBit/s untereinander angebunden – ein DGX-2-System von NVIDIA kommt auf die Hälfte an Netzwerkbandbreite. Die hohe Bandbreite ist dafür verantwortlich, dass die Leistung für das Training deutlich über dem liegt, was die Konkurrenz bieten kann. Auf die Leistungsaufnahme normiert will Habana Labs fast doppelt so schnell sein.

Die Netzwerkinfrastruktur ist ein wichtiger Punkt, die dazugehörige Software ein anderer. Habana Labs verwendet das Netzwerkprotokoll RDMA over Converged Ethernet (RoCE). Dazu werden InfiniBand-Transportpakete über Ethernet übertragen. Über verschiedenen Maßnahmen soll RoCE v2 vor allem hinsichtlich der Latenzen verbessert werden. Diese spielen in Infrastrukturen wie der für die HLS-1-Systeme eine wichtige Rolle. Auch die gegenseitigen Zugriffe auf den Speicher über das Netzwerk werden mit RoCE v2 deutlich verbessert.

Derzeit ist nicht bekannt, wann der Gaudi-Chip und die dazugehörigen Module ihre Sample-Status verlassen werden und Habana Labs die Hardware den zahlenden Kunden zur Verfügung stellt. Intel aber setzt auf die aktuelle und zukünftige Entwicklung bei Habana Labs und so werden wir sicherlich auch noch nach Goya und Gaudi Neuigkeiten aus Israel hören.

Welche ist die beste CPU?

Unsere Kaufberatung zu den aktuellen Intel- und AMD-Prozessoren hilft dabei, die Übersicht nicht zu verlieren. Dort zeigen wir, welche Prozessoren aktuell die beste Wahl darstellen - egal, ob es um die reine Leistungsfähigkeit oder das Preis-Leistungs-Verhältnis geht.


Social Links

Das könnte Sie auch interessieren:

  • AMDs Ryzen 7 3700X und Ryzen 9 3900X im Test

    Logo von IMAGES/STORIES/2017/AMDRYZEN93900X

    Heute ist es endlich soweit: AMD bläst zum Großangriff. Die Zen-2-Architektur versetzt AMD offenbar in die Situation, endgültig mit dem Konkurrenten Intel aufzuschließen. Mit Zen, Zen+ und der AM4-Plattform hat AMD über zwei Jahre die Basis zum Erfolg geschaffen. Nun will man den... [mehr]

  • AMD Ryzen 5 3600 im Test: Ohne X noch viel besser

    Logo von IMAGES/STORIES/2017/AMD_RYZEN_5_3600_TEST-TEST

    Gegenüber dem AMD Ryzen 5 3600X aus unserem letzten Test, der trotz seiner Einstufung in die Mittelklasse ältere Topmodelle schlägt, ist der AMD Ryzen 3600 ohne das X-Kürzel nur 200 bis 300 MHz niedriger getaktet und mit einer TDP von 65 W sparsamer klassifiziert, was einen... [mehr]

  • AMD Ryzen 5 3600X im Test: 265-Euro-CPU schlägt ältere Flaggschiff-Modelle

    Logo von IMAGES/STORIES/2017/RYZEN_5_3600X_REVIEW-TEASER

    Mit dem Ryzen 9 3900X und dem Ryzen 7 3700X ist AMD seinem Konkurrenten wieder mächtig auf die Pelle gerückt und macht ihm selbst im High-End-Bereich mit einer hohen Anwendungs- und Spiele-Leistung zu einem deutlich günstigeren Preis das Leben schwer. Doch auch in den unteren Preis- und... [mehr]

  • AMD Ryzen 5 3400G im Test: Weniger Änderungen als erwartet

    Logo von IMAGES/STORIES/2017/AMD_RYZEN_5_3400G-TEASER

    Im letzten Jahr erwiesen sich die Raven-Ridge-APUs als gute Alternative, wenn man sich einen sparsamen und günstigen Office-Rechner zusammenbauen wollte. Die Kombination aus Zen-Prozessor und Vega-Grafiklösung erwies sich als durchaus leistungsfähig für den Alltag. Ob dies auch für die... [mehr]

  • AMD Ryzen 7 3800X im Test: Ein hungriger Lückenfüller

    Logo von IMAGES/STORIES/2017/AMDRYZEN93900X

    Kurz vor dem Start des lange ersehnten AMD Ryzen 9 3950X und der kommenden Threadripper-Modelle schließen wir eine weitere Lücke in unserer Testdatenbank und stellen den AMD Ryzen 7 3800X auf den Prüfstand, der über acht Kerne verfügt, gegenüber seinem kleinen Schwestermodell jedoch in einer... [mehr]

  • Insider-Gerüchte: Intel streicht 10-nm-Pläne für den Desktop komplett

    Logo von IMAGES/STORIES/2017/INTEL

    Aus Insiderkreisen haben wir einige exklusive Informationen zu zukünftigen Desktop-Prozessoren von Intel erhalten. Die Quelle hat sich in der Vergangenheit zu CPU-Themen bereits mehrfach aus treffsicher erwiesen. Dennoch sollte wie bei allen Gerüchten dieser Art eine gewisse Vorsicht an den... [mehr]