1. Hardwareluxx
  2. >
  3. News
  4. >
  5. Hardware
  6. >
  7. Prozessoren
  8. >
  9. 59,4 Milliarden Transistoren auf 823 mm²: Die Colossus Mk2 GC200 IPU

59,4 Milliarden Transistoren auf 823 mm²: Die Colossus Mk2 GC200 IPU

Veröffentlicht am: von

graphcoreGraphcore hat die zweite Generation seiner Intelligence Processing Unit (IPU) vorgestellt. Die Colossus Mk2 GC200 IPU ist ein hochspezialisierter Chip, der auf das Training und Inferencing von Deep-Learning-Netzwerken ausgelegt ist. Bei einem Blick auf die technischen Daten wird schnell klar, dass es das britische Unternehmen Graphcore ernst meint.

Der Prozessor, also die Colossus Mk2 GC200 IPU, wird in 7 nm bei TSMC gefertigt. Hier zum Einsatz kommen 59,4 Milliarden Transistoren auf einer Fläche von 823 mm². Zum Vergleich: NVIDIAs Flaggschiff-GPU, die GA100 auf Basis der Ampere-Architektur, kommt auf rund 54 Milliarden Transistoren bei einer Fläche von 826 mm². Hier findet ebenfalls die Fertigung bei TSMC in 7 nm statt. In beiden Fällen bewegt man sich am Limit dessen, was aufgrund der Limitierungen von Masken- und Framegröße aktuell gefertigt werden kann. Laut Graphcore handelt es sich beim GC200 um den komplexesten Prozessor, der jemals gefertigt wurde. Leider nennt man keine TDP des Chips.

Der Prozessor besteht aus 1.472 sogenannten IPU-Cores, die wiederum 8.832 separate Compute-Threads verarbeiten können. Man könnte hier also in gewisser Weise von einem SMT6 (Simultaneous multithreading mit sechs Threads pro Kern) sprechen. Die Recheneinheiten der GC200-IPU sind auf die Berechnungen eines eigenen Datenformats optimiert. Graphcore nennt dies AI-Float und es wird versucht, alle Berechnungen nicht größer als 16 Bit werden zu lassen, um möglichst effektiv zu arbeiten. Die Recheneinheiten unterstützen außerdem FP32, FP16.32 (16 Bit Multiply mit 32 Bit Accumulate) und FP16.16 (16 Bit Multiply und Accumulate). Wie die Recheneinheiten der GA100-GPU von NVIDIA unterstützen die IPU-Cores Sparsity/Sparse Matrix oder die dünnbesetzte/schwachbesetzte Matrizen. Besteht eine Matrix aus sehr vielen mit Nullen besetzten Einträgen, können über verschiedene Techniken diese Bereiche in der Berechnung und Speicherung effizienter genutzt werden.

Möglichst großer und möglichst schneller Speicher spielt für das Training und Inferencing eine wichtige Rolle. Nicht ohne Grund ist der L2-Cache der GA100-GPU inzwischen 40 MB groß und AI-Beschleuniger wie die GC200-IPU setzen auf viel SRAM. Satte 900 MB sogenannter In-Processor Memory sind hier vorhanden. Der SRAM verteilt sich über die IPU-Cores, die in IPU-Tile organisiert sind.

Zudem kann jeder GC200-IPU bis zu 450 GB an Exchange-Memory zur Verfügung gestellt werden, der eine Bandbreite von 180 TB/s erreicht. Hier zeigt sich einmal mehr, dass großer und schneller Speicher ein wichtiger Bestandteil ist und hier reden wir noch von Speicher, der sich direkt auf dem Chip bzw. in direkter Nähe befindet. Diese Maßgabe des schnellen Speichers setzt sich aber auch auf die höhere Ebenen des Speicher-Subsystems, sprich DDR4- und NVMe-Speicher, fort.

Ein schneller Interconnect spielt ebenfalls eine Rolle, denn eine GC200-IPU kommt selten zum Einsatz. Stattdessen gibt es Knoten mit bis zu vier dieser Chips. Diese wiederum sind über einen IPU-Fabric miteinander verbunden. Ein Graphcore GC4000 IPU-Gateway ist ein separater Chip, der hier zum Einsatz kommt und das Routing innerhalb eines Knotens übernimmt. Der GC4000 IPU-Gateway kommt auf eine kombinierte Datenrate von 2,8 TBit/s. Im Nahbereich kommen für den IPU-Fabric optische OSFP-Verbindungen zum Einsatz. Über größere Abstände hinweg dann QSFP-Verbindungen, die über Ethernet getunnelt werden.

Über den IPU-Fabric wird es möglich, ein Dutzend GC200-IPUs miteinander zu betreiben, das System soll aber auch mit zehntausenden IPUs noch skalieren.

IPU-Machine M2000

Als Basis eines Systems mit den neuen IPUs dient ein M2000 getaufter Knoten mit vier GC200-IPUs. 16 IPU-Maschines mit jeweils vier GC200-Chips können in ein Rack gepackt werden und nennen sich dann IPU-POD64. In größeren IPU-PODs können bis zu 64.000 GC200-IPUs zusammengefasst werden. Graphcore spricht hier von einer Rechenleistung von bis zu 16 EFLOPS.

Die IPU-Maschines arbeiten komplett eigenständig von bestehenden Systemen und können als solche betrieben werden. Einzig zur Speicherung und dem Lesen der Daten der AI-Anwendungen sind noch Standard-Systeme notwendig.

Graphcore liefert zudem ein paar Vergleichswerte zu bestehenden Systemen. Dabei nimmt man eine DGX-A100 mit acht der neuen A100-Beschleuniger von NVIDIA. Ein IPU-POD32, also 8x M2000-Racks mit jeweils vier GC200-IPUs, kommen auf eine FP32-Rechenleistung von 2.000 TFLOPS, während es beim DGX-A100 156 TFLOPS sind. Für das AI-Computing, also Berechnungen mit geringer Genauigkeit (zum Beispiel INT8), spricht Graphcore von 8 PFLOPS, während das DGX-A100-System auf 2,5 PFLOPS kommt. Der Anschaffungspreis des Graphcore-Systems soll bei 259.600 US-Dollar liegen, während ein DGX-A100 199.000 US-Dollar kostet, aber in bestimmten Bereichen deutlich weniger leisten kann – so der Hersteller.

IPU-Machine M2000 und IPU-POD64-Systeme können ab sofort vorbestellt werden und sollen ab dem vierten Quartal 2020 ausgeliefert werden. Per Cloud-Zugriff können Kunden ab sofort die neue Hardware nutzen und die eigenen Anwendungsbereiche darauf testen. Der OEM-Markt soll in den kommenden Monaten ebenfalls in Angriff genommen werden, so dass solche Systeme bald auch von Dell EMC oder HPE geliefert werden könnten.

Welche ist die beste CPU?

Unsere Kaufberatung zu den aktuellen Intel- und AMD-Prozessoren hilft dabei, die Übersicht nicht zu verlieren. Dort zeigen wir, welche Prozessoren aktuell die beste Wahl darstellen - egal, ob es um die reine Leistungsfähigkeit oder das Preis-Leistungs-Verhältnis geht.


Social Links

Das könnte Sie auch interessieren:

  • AMD Ryzen 7 3800X im Test: Ein hungriger Lückenfüller

    Logo von IMAGES/STORIES/2017/AMDRYZEN93900X

    Kurz vor dem Start des lange ersehnten AMD Ryzen 9 3950X und der kommenden Threadripper-Modelle schließen wir eine weitere Lücke in unserer Testdatenbank und stellen den AMD Ryzen 7 3800X auf den Prüfstand, der über acht Kerne verfügt, gegenüber seinem kleinen Schwestermodell jedoch in einer... [mehr]

  • In Spielen König, sonst eher ein kleiner Prinz: Intel Core i5-10600K und Core...

    Logo von IMAGES/STORIES/2017/INTEL-CML-S

    Heute ist es soweit und wir dürfen die ersten Leistungsdaten des Core i5-10600K und des Core i9-10900K präsentieren. Damit öffnet Intel seine Comet-Lake-Prozessoren für den Markt, denn ab heute sind die ersten Modelle im Handel verfügbar. Die Kernkompetenzen der neuen Prozessoren liegen vor... [mehr]

  • AMD hängt Intel weiter ab: Der Ryzen 9 3950X im Test

    Logo von IMAGES/STORIES/2017/RYZEN-3950X

    Besser spät als nie – so ließe sich das Timing für unseren Test des Ryzen 9 3950X wohl am besten zusammenfassen. Zum Ursprünglichen Termin der Tests konnte uns AMD kein Sample zur Verfügung stellen und so mussten wir uns etwas gedulden, bis auch wir den 16-Kerner testen konnten. Der... [mehr]

  • Insider-Gerüchte: Intel streicht 10-nm-Pläne für den Desktop komplett

    Logo von IMAGES/STORIES/2017/INTEL

    Aus Insiderkreisen haben wir einige exklusive Informationen zu zukünftigen Desktop-Prozessoren von Intel erhalten. Die Quelle hat sich in der Vergangenheit zu CPU-Themen bereits mehrfach aus treffsicher erwiesen. Dennoch sollte wie bei allen Gerüchten dieser Art eine gewisse Vorsicht an den... [mehr]

  • Ein Athlon ist noch längst kein Ryzen: Der Athlon 3000G im Test

    Logo von IMAGES/STORIES/2017/AMD_ATHLON_200GE

    Für den Athlon 3000G hat sich AMD ein knappes Zeitfenster ausgesucht. Letzte Woche hab es die Testberichte zum Ryzen 9 3950X, zum 25. November erfolgt der Marktstart und auch die Tests zu den Ryzen-Threadripper-Prozessoren werden dann veröffentlicht. Dementsprechend fokussieren wir uns heute auf... [mehr]

  • Schneller dank Zen 2: Ryzen Threadripper 3960X und 3970X im Test

    Logo von IMAGES/STORIES/2017/RYZEN-THREADRIPPER-3RDGEN

    Nachdem sich AMD auf dem klassischen Desktop mindestens auf Augenhöhe zu Intel sieht, will man nun den bereits vorhandenen Vorsprung im High-End-Desktop weiter ausbauen. Den Anfang machen der Ryzen Threadripper 3960X mit 24 und der Ryzen Threadripper 3970X mit 32 Kernen. Zum Vorgänger... [mehr]