> > > > Ein Blick in Google’s Tensor Processing Unit (TPU)

Ein Blick in Google’s Tensor Processing Unit (TPU)

Veröffentlicht am: von

Themen wie Machine Learning, Deep Learning und Artificial Intelligence, die eigentlich nur Synonyme füreinander sind, spielen in der heutigen Welt eine immer wichtigere Rolle. Unternehmen wie Intel, Google und NVIDIA haben sich darauf vorbereitet und entsprechende Hardware entwickelt. Google hat dazu die Tensor Processing Unit (TPU) entwickelt, zu der es nun weitere Informationen gibt.

Bei der TPU handelt es sich um einen Custom-ASIC (Application Specific Integrated Circuit), der speziell auf das Machine Learning mittels TensorFlow zugeschnitten ist. Das bisher geheime Projekt wird bereits seit Jahren bei Google ausgeführt, die Hardware läuft bereits seit mehr als einem Jahr in den eigenen Data-Centern.

Bisher hat sich Google immer mit technischen Daten sowie Leistungswerten zurückgehalten. Nun aber hat man doch einige Werte veröffentlicht.

91,75 TOPS/s aus 700 MHz

Die wichtigste Komponenten eines jeden Chips sind die eigentlichen Recheneinheiten. Im Falle der Google TPU verbaut man eine Matrix aus 256 × 256 Multiplizier/Aufaddier-Einheiten (Multiplier/Accumulator, MAC). Diese können ganze Zahlen mit einer Länge von 8 Bit verarbeiten. Aus 256 × 256 Recheneinheiten, die jeweils eine Multiplikation und Addition (jeweils 65.536 Operationen) ausführen können, ergibt sich bei einem Takt von 700 MHz eine Rechenleistung von 91,75 TOPS (Tera Operations per Second). Zum Vergleich: Ein Intel Xeon E5-2699 v3 kommt auf 2,6 TOPS. Falls notwendig können die Recheneinheiten auch mit Fließkommaeinheiten bei 8 Bit sowie in 16 Bit rechnen, dann aber reduziert sich die Rechenleistung um ein Viertel.

Hinsichtlich der Möglichkeiten der Hardware sowie der Fertigung stellt Google auch einen Vergleich zum besagten Intel Xeon E5-2699 v3 und der NVIDIA Tesla K80 mit zwei GPUs an.

Gegenüberstellung der Beschleuniger
Hardware Intel Xeon E5-2699 v3 NVIDIA Tesla K80 TPU
Chipgröße: 662 mm² 561 mm² -
Fertigung: 22 nm 28 nm 28 nm
Takt: 2.300 MHz 560 MHz 700 MHz
TDP: 145 W 150 W 75 W
Leistungsaufnahme Idle: 41 W 25 W 28 W
Leistungsaufnahme Last: 145 W 98 W 40 W
Rechenleistung 8 Bit: 2,6 TOPS - 91,8 TOPS
Rechenleistung FP: 1,3 TFLOPS 2.8 TFLOPS -
Speichergröße L2-Cache: 51 MB 8 MB 28 MB
Speicherbandbreite: 51 GB/s 160 GB/s 34 GB/s
Anzahl der Speicherchips: 2 8 4

Google spricht nicht über die Größe seines Chips, viel kleiner als die übrigen beiden dürfte er aber nicht sein. Auch bei der Fertigung liegen die drei Konkurrenten in etwa gleichauf. Interessanter wird es, wenn man sich die Leistungsaufnahme im Zusammenspiel mit der gebotenen Leistung anschaut. Die Google-Hardware soll auf dem Papier bereits um die Hälfte sparsamer sein und auch in den Messungen können diese Werte in etwa erreicht werden. Die Rechenleistung für die gewünschten 8-Bit-Berechnungen liegt aber um ein Vielfaches über dem, was Intel und NVIDIA in der besagten Vergleichshardware liefern können. Dabei sei aber angemerkt, dass NVIDIA und Intel auch andere Hardware anbieten können, die deutlich schneller ist.

Datenanbindung ebenso wichtig wie Recheneinheiten

Neben den Recheneinheiten hat sich in den vergangenen Jahren aber auch gezeigt, dass die Anbindung der Recheneinheiten an einen Datenbus von entscheidender Bedeutung ist. Nicht ohne Grund entwickeln AMD, Intel, NVIDIA und IBM immer schnellere Interconnects, um den immer schnelleren Speicher auch ebenso schnell an die Recheneinheiten anbinden zu können.

Im Falle der Google TPU sind 24 MB an Unified Buffer vorhanden. Der Speicher nimmt in etwa so viel Platz des Chips ein, wie die Recheneinheiten selbst – etwa 30 %. Nun kennen wir von den GPUs ein Speicherinterface von 256, 384 oder 512 Bit. Mit den ersten GPUs mit High Bandwidth Memory wurden Speicherinterfaces mit 4.096 Bit eingeführt. Die TPU aber bindet den Speicher über ein 256 Byte breites Speicherinterface an. Dies entspricht der Hälfte der Wertes für schnellen HBM.

Beeindruckende Leistung – hohe Effizienz

All die Hardware hat natürlich den Zweck die Berechnungen möglichst schnell ausführen zu können. Doch wie schnell ist die TPU im Vergleich zur Konkurrenz?

Die Benchmarks sind eindeutig und an dieser Stelle sei einmal beschrieben, warum gegen Hardware aus dem Jahre 2015 verglichen wird. Eben seit 2015 setzt Google die TPU ein. Zu diesem Zeitpunkt waren der Intel Xeon E5-2699 v3 und die NVIDIA Tesla K80 aktuell. Da große Rechenzentren immer nur damit planen können, was zum aktuellen Zeitpunkt oder in Kürze verfügbar sein wird, nimmt man diese Hardware als Basis.

Die Ergebnisse sind recht eindeutig, denn die TPU ist um den Faktor 15 bis 30 schneller. Zieht man auch die FLOPS/W mit in Betracht, verbessert sich das Verhältnis sogar noch auf den Faktor 30 bis 80. Einen Ausblick auf den möglichen Vergleich mit aktueller Hardware gibt es zwar nicht, allerdings spricht Google davon, dass man durch einfache Änderungen an der Plattform das Ergebnis noch weiter verbessern könne. So kommt derzeit DDR3-Speicher außerhalb der TPU zum Einsatz. Man könne aber auch GDDR5 verwenden und damit die Rechenleistung noch einmal verdreifachen. Die Effizienz könne damit um den Faktor 70 bis 200 gegenüber der genannten Hardware gesteigert werden.

Google hat sich mit der TPU eine Hardware geschaffen, die gezielt auf einen Zweck hin ausgerichtet ist. Hersteller wie Intel, IBM oder NVIDIA müssen sich aber etwas breiter aufstellen. Hier geht es nicht nur darum 8-Bit-Operationen beherrschen zu können. Stillstand ist aber nicht zu erwarten, dann alle Hersteller arbeiten mit jeder Generation daran die Leistung weiter zu steigern – sicherlich keine Überraschung. Es führt allerdings kein Weg mehr daran vorbei, dass wir mehr und mehr Custom-Hardware sehen werden.

Social Links

Kommentare (2)

#1
customavatars/avatar57860_1.gif
Registriert seit: 11.02.2007
Nürnberg, Deutschland
Stabsgefreiter
Beiträge: 265
TOPS != TFLOPS

Das FL steht für Floating Point.

Bitte korrigieren!
#2
customavatars/avatar3377_1.gif
Registriert seit: 15.11.2002
www.twitter.com/aschilling
[printed]-Redakteur
Tweety
Beiträge: 29823
Hi, es muss natürlich TOPS (Tera Operations per Second) heißen. Danke!
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

16 Threads für 550 Euro: AMD RYZEN 7 1800X im Test

Logo von IMAGES/STORIES/LOGOS-2017/AMD_RYZEN_TEASER_100

Eine neue Ära – so beschreibt AMD selbst den Start der RYZEN-Prozessoren. Die dazugehörige Zen-Architektur soll ein Neustart für AMD sein und das auf allen wichtigen Märkten. Den Anfang machen die RYZEN-Prozessoren auf dem Desktop. Die Zen-Architektur soll AMD aber auch zu einem Neustart auf... [mehr]

AMD Ryzen 7 1700 im Test und übertaktet - der interessanteste Ryzen

Logo von IMAGES/STORIES/LOGOS-2017/AMD_RYZEN_TEASER_100

Mit dem Ryzen 7 1800X und Ryzen 7 1700X haben wir uns die beiden neuen Flaggschiff-Prozessoren von AMD näher angeschaut. Nun fehlt nur noch das dritte Modell im Bunde, das für viele Umrüst-Interessenten sicherlich der interessanteste Ryzen-Prozessor ist. Die Rede ist natürlich vom Ryzen 7 1700... [mehr]

Intel vs. AMD, Akt 2: Skylake-X und Kaby-Lake-X im Test gegen Ryzen

Logo von IMAGES/STORIES/2017/7900AUFMACHER

In den letzten Monaten wurde die CPU-Vorherrschaft von Intel gebrochen und den Prozessormarkt durcheinandergewirbelt. Nach dem Ryzen-Tornado blieb Intel nichts anderes über, als mit schnell vorgestellten neuen Multikern-Prozessoren aus der X-Serie auf sich aufmerksam zu machen. Mit dem Core i9... [mehr]

AMDs Ryzen 7 1700X im Test: Der beste Ryzen?

Logo von IMAGES/STORIES/LOGOS-2017/AMD_RYZEN_TEASER_100

In unserem ausführlichen Testbericht zu AMDs Ryzen 7 1800X in der letzten Woche hatten wir bereits angekündigt, dass wir weitere Artikel rund um AMDs neues Flaggschiff bringen werden. Den Anfang macht ein Kurztest zum Ryzen 7 1700X, der mit knapp 120 Euro weniger Kaufpreis momentan als das... [mehr]

Threadripper: AMDs Ryzen Threadripper 1950X und 1920X im Test

Logo von IMAGES/STORIES/2017/THREADRIPPER_TEASER

AMD strotzt vor Selbstbewusstsein: Wie lässt es sich sonst erklären, dass man ein Produkt mit einem so coolen Namen ausstattet? Die als "Threadripper" bezeichneten Ryzen-Prozessoren sollen AMD in den Benchmarks an den ersten Rang katapultieren - zumindest in Thread-intensiven Benchmarks. Wir... [mehr]

Intel Core i7-7700K im Test - keine großen Sprünge mit Kaby Lake

Logo von IMAGES/STORIES/LOGOS-2016/KABYLAKE

Am heutigen 3. Januar stellt Intel die Desktop-Modelle der Kaby-Lake-Architektur vor. Wir haben natürlich den Launch-Test: Intels Flaggschiff, der Core i7-7700K, wurde von uns in den letzten Tagen durch diverse Benchmarks gejagt und gegen die Vorgänger verglichen. Allerdings sollte... [mehr]