1. Hardwareluxx
  2. >
  3. News
  4. >
  5. Hardware
  6. >
  7. Prozessoren
  8. >
  9. Googles TPUs werden enger gepackt und wassergekühlt

Googles TPUs werden enger gepackt und wassergekühlt

Veröffentlicht am: von

googleaiAuf der Keynote der diesjährigen Google I/O drehte sich vieles um Machine Learning und intelligente Assistenzsysteme. Um diese trainieren zu können, arbeitet Google seit einigen Jahren an eigener Hardware, die auf diese Anwendungen ausgelegt sind – Tensor Processing Units oder kurz TPUs.

Bei der TPU handelt es sich um einen Custom-ASIC (Application Specific Integrated Circuit), der speziell auf das Machine Learning mittels TensorFlow zugeschnitten ist. Die zweite Generation der TPUs berechnet 256 × 256 Multiplizier/Aufaddier-Einheiten (Multiplier/Accumulator, MAC) – bestehend aus 2x 128 x 128 Rechencluster. Hinzu kommen 16 GB an HBM2. Diese 16 GB erreichen eine Speicherbandbreite von 600 GB/s und arbeiten demnach mit einem Takt von etwas weniger als 600 MHz. Die Rechenleistung pro TPU gibt Google mit 180 TFLOPS an.

Zur I/O-Keynote stellt Google nun die dritte Iteration der TPUs vor. Auf Seiten der ASICs und damit der eigentlichen Hardware tut sich allerdings nichts. Wir sprechen also weiterhin von zwei Rechenkernen pro Chip und vier Chips ergeben eine TPU. Eine solche TPU kommt auf 180 TFLOPs. Hinzu kommen Scalar-, Vektor- und eine Matrix-Einheit.

Für das Training eines Deep-Learning-Netzwerkes sind FP32-Berechnungen, also Fließkommaberechnungen mit einfacher Genauigkeit, entscheidend. Um einmal die Komplexität der angewendeten Matrix-Multiplikationen vor Augen zu führen, stellt Google die mathematischen Zusammenhänge etwas besser grafisch dar.

Schnell wird also klar, mit welchen Zahlen solche Systeme umgehen müssen und diese Berechnungen werden milliardenfach pro Sekunde ausgeführt. bfloat16 ist ein neuer Datentyp, der so in dieser Form bisher nur von Google verwendet wird. Er soll den Umfang von FP32 bieten, ohne aber die Genauigkeit übernehmen zu müssen, die in diesem Fall unnötig ist.

Keine neue Hardware – wohl aber dichter gepackt und wassergekühlt

An der eigentlichen Hardware in Form der Chips hat sich also nichts getan. Offenbar aber kann Google die Chips nun dichter zusammen packen und der eigene Interconnect, über den es keinerlei technische Details zur Bandbreite oder Anzahl der Links gibt, ist in der Lage mehr TPUs anzusprechen, so dass die Pods, in denen Google mehrere Dutzend mit hunderten oder gar tausenden TPUs betreibt, größer werden. Bisher bestanden solche Pods aus 64 TPUs. Diese erbringen eine Rechenleistung von 11,5 PFLOPS und bieten 4 TB an HBM2. Die neue Pods können mehr als zehnmal so groß sein und erreichen eine Rechenleistung von 100 PFLOPS für INT8-Berechnungen, die für das Machine Learning wichtig sind.

Die TPUs der dritten Generation kommen allerdings nicht mehr mit einer Luftkühlung aus. Nicht, weil die Leistung derart gesteigert werden konnte, sondern weil Google sie in den Pods dichter zusammenpackt und die Abwärme über eine Wasserkühlung besser abgeleitet werden kann.

Inzwischen verwendet Google die TPUs aber nicht nur für eigene Anwendungen, sondern stellt sie auch in der eigenen Cloud zur Verfügung. Eine Cloud-TPU-Konfiguration besteht aus vier dieser Chips, kommt also auf 64 GB HBM2 und acht „Dual-Cores". Diese kleinste Cloud-TPU-Konfiguration kann durch Nutzer angemietet werden. Die Kosten belaufen sich auf 6,50 US-Dollar pro Cloud-TPU und Stunde.

Datenschutzhinweis für Youtube



An dieser Stelle möchten wir Ihnen ein Youtube-Video zeigen. Ihre Daten zu schützen, liegt uns aber am Herzen: Youtube setzt durch das Einbinden und Abspielen Cookies auf ihrem Rechner, mit welchen Sie eventuell getracked werden können. Wenn Sie dies zulassen möchten, klicken Sie einfach auf den Play-Button. Das Video wird anschließend geladen und danach abgespielt.

Ihr Hardwareluxx-Team

Youtube Videos ab jetzt direkt anzeigen

Welche ist die beste CPU?

Unsere Kaufberatung zu den aktuellen Intel- und AMD-Prozessoren hilft dabei, die Übersicht nicht zu verlieren. Dort zeigen wir, welche Prozessoren aktuell die beste Wahl darstellen - egal, ob es um die reine Leistungsfähigkeit oder das Preis-Leistungs-Verhältnis geht.


Social Links

Das könnte Sie auch interessieren:

  • Core i9-12900K und Core i5-12600K: Hybrid-Desktop-CPUs Alder Lake im Test

    Logo von IMAGES/STORIES/2017/ALDER-LAKE-REVIEW

    Heute ist es soweit: Intel holt zum Gegenschlag gegen AMD aus und will nicht mehr nur weiterhin in der Single-Threaded-Leistung besser als sein Konkurrent sein, sondern dank eines Hybrid-Designs auch in der Multi-Threaded-Leistung. Alder Lake ist laut Intel der größte Schritt in der... [mehr]

  • K wie Mittelklasse: Intel Core i7-12700K im Test

    Logo von IMAGES/STORIES/2017/ALDER-LAKE-REVIEW

    Nachdem wir uns das schnellste und das langsamste K-Modell der Alder-Lake-Prozessoren bereits angeschaut haben, folgt heute das Mittelklasse-Modell in Form des Core i7-12700K. Nach unserem initialen Test kann man sagen: Intel ist zurück! Viele Aspekte des Alder-Lake-Designs sind neu, von den... [mehr]

  • Ein letztes Hurra auf AM4: Der Ryzen 7 5800X3D im Test

    Logo von IMAGES/STORIES/2017/RYZEN7-5800X3D

    Vor etwas mehr als einer Woche erschienen die ersten Tests des Ryzen 7 5800X3D, dem ersten Prozessor mit 3D V-Cache, der explizit auf Spiele ausgelegt ist und hier seine Stärken haben soll. Inzwischen ist der Prozessor auch im Handel verfügbar. Heute wollen wir unseren Test des Einhorns für AM4... [mehr]

  • Core i5-12400 im Test: Ohne E-Cores zur günstigen und effizienten Gaming-CPU

    Logo von IMAGES/STORIES/2017/CORE-I5-12400

    Erst vor wenigen Tagen hat Intel die Alder-Lake-Produktpalette um die sparsameren 65- und 35-W-Modelle ergänzt. Mit dem Core i5-12400 wollen wir uns heute den heißesten Anwärter auf die Preis/Leistungskrone anschauen. Natürlich gäbe es noch zahlreiche weitere interessante Modelle, wir machen... [mehr]

  • BCLK OC: Core i3-12100F und B660-Plattform-Erfahrungen

    Logo von IMAGES/STORIES/2017/BCLK-OC

    Nachdem wir uns das Thema Basistakt-Overclocking auf Basis des ASUS ROG Maximus Z690 Hero und dem Core i5-12400 bereits angeschaut haben, bekam das Thema mit der vermeintlichen Unterstützung einiger Mainboards von ASUS mit B660-Chipsatz eine interessante Wendung, da die Kombination aus günstigem... [mehr]

  • Test: Effizienz von Alder Lake in Spielen im Vergleich

    Logo von IMAGES/STORIES/2017/ALDER-LAKE-REVIEW

    In unseren bisherigen Tests der Alder-Lake-Prozessoren spielte natürlich auch der Stromverbrauch eine Rolle. Dabei haben wir aber nur Idle- und Volllast-Betrieb betrachtet, da sich diese am konsistentesten nachstellen lässt und der Volllast-Betrieb das Worst-Case-Szenario... [mehr]