1. Hardwareluxx
  2. >
  3. News
  4. >
  5. Hardware
  6. >
  7. Prozessoren
  8. >
  9. Das Netzwerk als Rückgrat: Habana Labs' Gaudi liefert 1 TBit/s an Anbindung

Das Netzwerk als Rückgrat: Habana Labs' Gaudi liefert 1 TBit/s an Anbindung

Veröffentlicht am: von

habana-labsBis Anfang diesen Jahres fuhr Intel zweigleisig, wenn es um dedizierte Hardware für das Inferencing und Training von Deep-Learning-Netzwerken ging. Aber der Chipgigant hat Nervana aufs Abstellgleis geschickt und sich für Habana Labs entschieden. Die hier bereits begonnen Entwicklung von Hard- und Software soll in den kommenden Jahren den Pfad zu dedizierten AI-Beschleunigern ebnen.

Mit den genaueren Details zum Goya-Chip für das Inferencing und dem Gaudi-Chip für das Training von Deep-Learning-Netzwerken haben wir uns schon beschäftigt. Die Goya-Chips werden inzwischen ausgeliefert, für Gaudi spricht Habana Labs noch immer von einem Sampling. Die Fertigung beider Chips findet bei TSMC in 16 nm statt. Über zukünftige Produkte spricht man zum aktuellen Zeitpunkt noch nicht.

In einem Video aus dem Dezember des vergangenen Jahres erläutert Eran Dagan, Product Marketing bei Habana Labs, die Skalierung des Gaudi-Chips, was vor allem über die Netzwerkanbindung gelingen soll. Doch zunächst ein paar grundsätzliche Informationen zu den Chips:

Gaudi und Goya setzen auf spezielle Tensor Processing Cores (TPCs), die wie die Tensor-Cores von NVIDIA Vektor- bzw. Matrixberechnungen ausführen können und dabei gegebenenfalls geringere Genauigkeit wie INT4- und INT8-Berechnungen sowie geringere Komplexität wie durch Bflout16 setzen.

Für Gaudi sind 32 GB an schnellem HBM2 verbaut. Goya kommt mit DDR4-Speicher und einem 128 Bit breiten Speicherinterface aus. Der Gaudi-Chip bietet zudem ein On-Die 100-GbE-Fabric mit der Unterstützung von RDMA über Converged Ethernet (ROCE). Damit lässt sich die Hardware per Mellanox NIC in einen Datacenter-Interconnect einbinden und die Lösung skaliert für mehrere tausend Nodes.

Die Netzwerkanbindung im Detail

Der Gaudi-Chip wird in zwei unterschiedlichen Hardware-Varianten angeboten werden. Die HL-205 Mezzaine Card (ähnlich wie ein NVIDIA SMX2-Modul aufgebaut), darf sich bis zu 300 W genehmigen und bietet 10x 100-GBit/s- oder 20x 50-GBit/s-Netzwerkinterconnects an. Zusammengenommen sprechen wir also von 1 TBit/s an Netzwerkbandbreite.

Die HL-200/202 PCI-Express-Karte kommt etwas abgespeckter daher und bietet 8x 100-GBit/s- oder 16x 50-GBit/s-Netzwerkinterconnects – zusammengenommen also 800 GBit/s. Dies klingt nach extrem viel Netzwerkbandbreite für einen AI-Chip. Eine V100-GPU von Tesla bietet keine direkte Netzwerkschnittstelle. Stattdessen werden die GPU-Beschleuniger per PCI-Express oder NVLink an das restliche System angebunden. Im Falle von NVIDIA kann dies innerhalb eines Rechenknotens mit NVLink geschehen, darüber hinaus aber kommen Netzwerk-Adapter von Mellanox zum Einsatz. Nicht ohne Grund hat sich NVIDIA Mellanox einverleibt. Diesen Umweg, der zusätzliche Komplexität und Latenzen und damit Engpässe hinzufügt, umgeht Habana Labs mit einer direkten Integration.

Wie man bei Habana Labs diese Netzwerkverbindungen nutzt, zeigt sich im Habana Labs System-1 (HLS-1). Das HLS-1 besteht aus acht HL-205 OAM-Modulen und zwei PCI-Express-Swichtes. 

Im HLS-1 sind alle acht Gaudi-Module direkt miteinander verbunden. Dazu verwendet Habana Labs ein All-to-All Direct-Rounting auf PCB-Ebene. Alle acht Gaudi-Module sind also per 100GbE direkt miteinander verbunden. Die verbleibenden drei Ports pro Gaudi-Modul werden über Ethernet-Ports dazu verwendet, eine Außenanbindung sicherzustellen.

Es handelt sich bei der eben beschriebenen Lösung um die einfache System-Topologie für ein singuläres System. Wenn mehrere HLS-1 verwendet werden sollen, bietet Habana Labs anderen Lösungen an. So gibt es ein Gaudi-System mit einem On-Board Ethernet-Switch. Hier werden 7x 100GbE von jedem Gaudi-Modul an den Switch geliefert. Dieser Switch nimmt 64x 100GbE-Verbindungen entgegen. 8x 100GbE stehen zur Außenanbindung zur Verfügung.

In der Hyper-Cube Mesh-System-Topologie wiederum gibt es wieder direkte Verbindungen zwischen den Gaudi-Modulen, aber in reduzierter Form. Eine möglichst schnelle Anbindung der HLS-1-Systeme untereinander ist ebenso wichtig, wie eine schnelle interne Kommunikation. Daher spricht Habana Labs hier eben von einem Mesh-System, welches einen hybriden Ansatz mit umfasst.

Je mehr HLS-1-Systeme zusammengefasst werden sollen, desto komplexer wird die Netzwerkinfrastruktur. HLS-1-Systeme werden mit 1,6 TBit/s untereinander angebunden – ein DGX-2-System von NVIDIA kommt auf die Hälfte an Netzwerkbandbreite. Die hohe Bandbreite ist dafür verantwortlich, dass die Leistung für das Training deutlich über dem liegt, was die Konkurrenz bieten kann. Auf die Leistungsaufnahme normiert will Habana Labs fast doppelt so schnell sein.

Die Netzwerkinfrastruktur ist ein wichtiger Punkt, die dazugehörige Software ein anderer. Habana Labs verwendet das Netzwerkprotokoll RDMA over Converged Ethernet (RoCE). Dazu werden InfiniBand-Transportpakete über Ethernet übertragen. Über verschiedenen Maßnahmen soll RoCE v2 vor allem hinsichtlich der Latenzen verbessert werden. Diese spielen in Infrastrukturen wie der für die HLS-1-Systeme eine wichtige Rolle. Auch die gegenseitigen Zugriffe auf den Speicher über das Netzwerk werden mit RoCE v2 deutlich verbessert.

Derzeit ist nicht bekannt, wann der Gaudi-Chip und die dazugehörigen Module ihre Sample-Status verlassen werden und Habana Labs die Hardware den zahlenden Kunden zur Verfügung stellt. Intel aber setzt auf die aktuelle und zukünftige Entwicklung bei Habana Labs und so werden wir sicherlich auch noch nach Goya und Gaudi Neuigkeiten aus Israel hören.

Welche ist die beste CPU?

Unsere Kaufberatung zu den aktuellen Intel- und AMD-Prozessoren hilft dabei, die Übersicht nicht zu verlieren. Dort zeigen wir, welche Prozessoren aktuell die beste Wahl darstellen - egal, ob es um die reine Leistungsfähigkeit oder das Preis-Leistungs-Verhältnis geht.


Social Links

Das könnte Sie auch interessieren:

  • AMD Ryzen 7 3800X im Test: Ein hungriger Lückenfüller

    Logo von IMAGES/STORIES/2017/AMDRYZEN93900X

    Kurz vor dem Start des lange ersehnten AMD Ryzen 9 3950X und der kommenden Threadripper-Modelle schließen wir eine weitere Lücke in unserer Testdatenbank und stellen den AMD Ryzen 7 3800X auf den Prüfstand, der über acht Kerne verfügt, gegenüber seinem kleinen Schwestermodell jedoch in einer... [mehr]

  • In Spielen König, sonst eher ein kleiner Prinz: Intel Core i5-10600K und Core...

    Logo von IMAGES/STORIES/2017/INTEL-CML-S

    Heute ist es soweit und wir dürfen die ersten Leistungsdaten des Core i5-10600K und des Core i9-10900K präsentieren. Damit öffnet Intel seine Comet-Lake-Prozessoren für den Markt, denn ab heute sind die ersten Modelle im Handel verfügbar. Die Kernkompetenzen der neuen Prozessoren liegen vor... [mehr]

  • AMD hängt Intel weiter ab: Der Ryzen 9 3950X im Test

    Logo von IMAGES/STORIES/2017/RYZEN-3950X

    Besser spät als nie – so ließe sich das Timing für unseren Test des Ryzen 9 3950X wohl am besten zusammenfassen. Zum Ursprünglichen Termin der Tests konnte uns AMD kein Sample zur Verfügung stellen und so mussten wir uns etwas gedulden, bis auch wir den 16-Kerner testen konnten. Der... [mehr]

  • Insider-Gerüchte: Intel streicht 10-nm-Pläne für den Desktop komplett

    Logo von IMAGES/STORIES/2017/INTEL

    Aus Insiderkreisen haben wir einige exklusive Informationen zu zukünftigen Desktop-Prozessoren von Intel erhalten. Die Quelle hat sich in der Vergangenheit zu CPU-Themen bereits mehrfach aus treffsicher erwiesen. Dennoch sollte wie bei allen Gerüchten dieser Art eine gewisse Vorsicht an den... [mehr]

  • Ein Athlon ist noch längst kein Ryzen: Der Athlon 3000G im Test

    Logo von IMAGES/STORIES/2017/AMD_ATHLON_200GE

    Für den Athlon 3000G hat sich AMD ein knappes Zeitfenster ausgesucht. Letzte Woche hab es die Testberichte zum Ryzen 9 3950X, zum 25. November erfolgt der Marktstart und auch die Tests zu den Ryzen-Threadripper-Prozessoren werden dann veröffentlicht. Dementsprechend fokussieren wir uns heute auf... [mehr]

  • Schneller dank Zen 2: Ryzen Threadripper 3960X und 3970X im Test

    Logo von IMAGES/STORIES/2017/RYZEN-THREADRIPPER-3RDGEN

    Nachdem sich AMD auf dem klassischen Desktop mindestens auf Augenhöhe zu Intel sieht, will man nun den bereits vorhandenen Vorsprung im High-End-Desktop weiter ausbauen. Den Anfang machen der Ryzen Threadripper 3960X mit 24 und der Ryzen Threadripper 3970X mit 32 Kernen. Zum Vorgänger... [mehr]