1. Hardwareluxx
  2. >
  3. News
  4. >
  5. Hardware
  6. >
  7. Prozessoren
  8. >
  9. Tesla: D1-Chip für das Training - Dojo-Supercomputer mit 1,1 EFLOPS

Tesla: D1-Chip für das Training - Dojo-Supercomputer mit 1,1 EFLOPS

Veröffentlicht am: von

tesla-fsd-chipAuf einem eigenen AI Day hat Tesla über die aktuellen und zukünftigen Entwicklungen im Bereich der Hard- und Software rund um die autonomen Systeme gesprochen. Das autonome Fahren ist in den verschiedenen Stufen zwar bereits in der Lage, einzelne Aufgaben und Strecken zu übernehmen, bis ein Fahrzeug aber in der Lage sein wird, sich komplett eigenständig von A nach B zu bewegen, wird es noch einige Zeit dauern.

Um solche autonomen Systeme betreiben zu können, bedarf es der notwenigen Sensorik. Die Systeme müssen aber auch verstehen, wie sie die Eingaben der Sensoren verarbeiten sollen. Dazu werden große Netzwerke mit echten Kameraaufnahmen trainiert. Ein solches Training wird auf Supercomputern ausgeführt, die dazu notwendige Hardware wird unter anderem von NVIDIA angeboten.

Ein Unternehmen von der Größe wie Tesla kann sich die Investition erlauben um die Hardware selbst zu entwickeln – ähnlich wie Amazon, Microsoft oder Google. Für das FSD (Full Self Driving) in den Fahrzeugen hat man dies bereits getan. In einem nächsten Schritt folgt nun die Trainings-Hardware.

Tesla D1 und Project Dojo
Tesla D1 und Project Dojo
Tesla D1 und Project Dojo
Tesla D1 und Project Dojo
Tesla D1 und Project Dojo
Tesla D1 und Project Dojo
Tesla D1 und Project Dojo

Der D1 ist Teslas erster eigener Chip für das Training von AI-Netzwerken. Dieser wird in den eigenen Rechenzentren zum Einsatz kommen. Der D1 ist ein Prozessor mit Matrix-Einheiten, einem SMT4 für die Kerne (64-Bit-Superscalar). Ausgelegt ist der Prozessor auf die Formate FP32, BFP16, CFP8, INT32, INT16 und INT8.

Der D1 wird in 7 nm bei TSMC gefertigt. Der Chip kommt auf 50 Milliarden Transistoren und eine Fläche von 645 mm². Die Rechenleistung soll bei 362 TFLOPS (BF16 und CFP8) bzw. 22,6 TFLOPS für FP32-Berechnungen liegen. Zum Vergleich: NVIDIAs A100 kommt auf 54,2 Milliarden Transistoren bei 826 mm² und wird ebenfalls in 7 nm gefertigt. Die Rechenleistung liegt hier bei 312 TFLOPS für die teilweise sparsamen Matrix-Berechnungen. Teslas D1 und der A100 können bis zu 400 W verbrauchen.

Tesla D1 und Project Dojo

Doch nicht nur auf die Rechenleistung kommt es an. Die Daten müssen schnell zu den Recheneinheiten gelangen und dazu ist die Anbindung des Speichers und der Chips untereinander entscheidend. Der SRAM ist mit 1,5 MB vergleichsweise klein. Die chipinterne Bandbreite liegt bei 10 TB/s. Die externe Anbindung erfolgt am Randbereich des Chips über einen I/O-Ring, der über 576 Lanes mit jeweils 112 Gbit/s auf eine Off-Chip-Bandbreite von 4 TB/s kommt.

Um die Skalierbarkeit weiter fortzusetzen, kann Tesla 25 dieser Chips in einem 5x5-Layout in einem Modul unterbringen. Vieles erinnert dabei an die Wafer Scale Engine (WSE) von Cerebras. Allerdings fertigt Tesla die D1-Chips nicht direkt zusammengefasst als einen Wafer, sondern setzt die Module später zusammen. Dennoch erfolgen die Stromversorgung und Kühlung wie dies bei der WSE der Fall ist.

Einer dieser Trainings Tiles kommt auf eine Rechenleistung von 565 TFLOPS (FP32) und eine I/O-Bandbreite von 36 TB/s. Als 2x3x2-Anordnung organisiert, verwendet Tesla zwölf dieser Trainings Tiles in einem Rack und will zehn dieser Racks zum Project Dojo bzw. dem gleichnamigen Supercomputer zusammensetzen.

Tesla selbst betreibt bereits einen der schnellsten Supercomputer. Dieser besteht aus 720 Nodes, die jeweils acht NVIDIA A100 GPU-Beschleuniger besitzen. Wir kommen hier also schon einmal auf 5.760 der GPUs mit jeweils 80 GB an Grafikspeicher. Welche Prozessoren für die Nodes verwendet werden, bleibt hingegen offen.

Tesla D1 und Project Dojo
Tesla D1 und Project Dojo

Dojo soll dieses System bei weitem übertrumpfen. Genau 3.000 D1-Prozessoren ergeben eine Rechenleistung von 1,1 EFLOPS für BF16- und CFP8-Berechnungen bzw. 67,8 PFLOPS für FP32-Berechnungen. Das mit der NVIDIA-Hardware bestückte Cluster kommt zwar auf 1,8 EFLOPS (BF16 und CFP8), dazu sind aber wie gesagt 5.760 GPUs mit jeweils 400 W notwenig, während Dojo mit 3.000 D1 auskommt.

Noch ist das Project Dojo aber nicht abgeschlossen. Ein erster Testchip wird bei 2 GHz betrieben. Die Kühlung wäre in der Lage, 15 kW abzuführen. Im kommenden Jahr will Tesla den Dojo-Supercomputer in Betrieb nehmen.

Welche ist die beste CPU?

Unsere Kaufberatung zu den aktuellen Intel- und AMD-Prozessoren hilft dabei, die Übersicht nicht zu verlieren. Dort zeigen wir, welche Prozessoren aktuell die beste Wahl darstellen - egal, ob es um die reine Leistungsfähigkeit oder das Preis-Leistungs-Verhältnis geht.


Social Links

Das könnte Sie auch interessieren:

  • Core i9-12900K und Core i5-12600K: Hybrid-Desktop-CPUs Alder Lake im Test

    Logo von IMAGES/STORIES/2017/ALDER-LAKE-REVIEW

    Heute ist es soweit: Intel holt zum Gegenschlag gegen AMD aus und will nicht mehr nur weiterhin in der Single-Threaded-Leistung besser als sein Konkurrent sein, sondern dank eines Hybrid-Designs auch in der Multi-Threaded-Leistung. Alder Lake ist laut Intel der größte Schritt in der... [mehr]

  • K wie Mittelklasse: Intel Core i7-12700K im Test

    Logo von IMAGES/STORIES/2017/ALDER-LAKE-REVIEW

    Nachdem wir uns das schnellste und das langsamste K-Modell der Alder-Lake-Prozessoren bereits angeschaut haben, folgt heute das Mittelklasse-Modell in Form des Core i7-12700K. Nach unserem initialen Test kann man sagen: Intel ist zurück! Viele Aspekte des Alder-Lake-Designs sind neu, von den... [mehr]

  • Ein letztes Hurra auf AM4: Der Ryzen 7 5800X3D im Test

    Logo von IMAGES/STORIES/2017/RYZEN7-5800X3D

    Vor etwas mehr als einer Woche erschienen die ersten Tests des Ryzen 7 5800X3D, dem ersten Prozessor mit 3D V-Cache, der explizit auf Spiele ausgelegt ist und hier seine Stärken haben soll. Inzwischen ist der Prozessor auch im Handel verfügbar. Heute wollen wir unseren Test des Einhorns für AM4... [mehr]

  • Core i5-12400 im Test: Ohne E-Cores zur günstigen und effizienten Gaming-CPU

    Logo von IMAGES/STORIES/2017/CORE-I5-12400

    Erst vor wenigen Tagen hat Intel die Alder-Lake-Produktpalette um die sparsameren 65- und 35-W-Modelle ergänzt. Mit dem Core i5-12400 wollen wir uns heute den heißesten Anwärter auf die Preis/Leistungskrone anschauen. Natürlich gäbe es noch zahlreiche weitere interessante Modelle, wir machen... [mehr]

  • BCLK OC: Core i3-12100F und B660-Plattform-Erfahrungen

    Logo von IMAGES/STORIES/2017/BCLK-OC

    Nachdem wir uns das Thema Basistakt-Overclocking auf Basis des ASUS ROG Maximus Z690 Hero und dem Core i5-12400 bereits angeschaut haben, bekam das Thema mit der vermeintlichen Unterstützung einiger Mainboards von ASUS mit B660-Chipsatz eine interessante Wendung, da die Kombination aus günstigem... [mehr]

  • Test: Effizienz von Alder Lake in Spielen im Vergleich

    Logo von IMAGES/STORIES/2017/ALDER-LAKE-REVIEW

    In unseren bisherigen Tests der Alder-Lake-Prozessoren spielte natürlich auch der Stromverbrauch eine Rolle. Dabei haben wir aber nur Idle- und Volllast-Betrieb betrachtet, da sich diese am konsistentesten nachstellen lässt und der Volllast-Betrieb das Worst-Case-Szenario... [mehr]