1. Hardwareluxx
  2. >
  3. News
  4. >
  5. Hardware
  6. >
  7. Prozessoren
  8. >
  9. Graphcore IPU wird durch 3D Wafer on Wafer schneller und effizienter

Graphcore IPU wird durch 3D Wafer on Wafer schneller und effizienter

Veröffentlicht am: von

graphcore-bow-ipuVor zwei Jahren stellte das in London ansässige Start-up Graphcore die Mk2 GC200 Intelligence Processing Unit (IPU) vor. Mit 59,4 Milliarden Transistoren auf einer Fläche von 823 mm², gefertigt in 7 nm bei TSMC, war die zweiten Generation der Angriff auf die etablierten Hersteller und hier vor allem NVIDIA.

Im vergangenen Jahr präsentierte Graphcore weitere Details, wie das Vorhandensein von 1.472 IPU-Cores, die 8.832 separate Compute-Threads verarbeiten können. Hinzu kommen 900 MB an SRAM, eine externe Anbindung von DDR4 sowie ein eigener Interconnect, der vier IPUs mit bis zu 2,8 TBit/s untereinander verbindet.

Nun stellte Gaphcore die dritte IPU-Generation vor. Diese soll eine um 40 % höhere Leistung als der Vorgänger bieten können. Bei der Effizienz soll es um 16 % vorwärts gehen.

Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU

Doch im Grund bei vieles beim Alten – auf den ersten Blick zumindest. Für Nutzer der IPU Pods ändert sich nichts. Es sind keinerlei Änderungen notwendig, damit die Software auch auf den neuen Bow-IPUs arbeitet. Auch am Preis soll sich nichts ändern. Ein IPU Pod mit 16 Beschleunigern kostete bisher etwa 150.000 US-Dollar und dies soll auch für die neue Generation der Fall sein.

Aber auch bei den eigentlichen IPUs tut sich auf den ersten Blick nichts. Der Prozessor besteht weiterhin aus 1.472 sogenannten IPU-Cores, die wiederum 8.832 separate Compute-Threads verarbeiten können. Man könnte hier also in gewisser Weise von einem SMT6 (Simultaneous Multithreading mit sechs Threads pro Kern) sprechen. Die Recheneinheiten der Bow-IPU sind auf die Berechnungen eines eigenen Datenformats optimiert. Graphcore nennt dies AI-Float und es wird versucht, alle Berechnungen nicht größer als 16 Bit werden zu lassen, um möglichst effektiv zu arbeiten. Die Recheneinheiten unterstützen außerdem FP32, FP16.32 (16 Bit Multiply mit 32 Bit Accumulate) und FP16.16 (16 Bit Multiply und Accumulate). Wie die Recheneinheiten der GA100-GPU von NVIDIA unterstützen die IPU-Cores Sparsity/Sparse Matrix oder die dünnbesetzte/schwachbesetzte Matrizen. Besteht eine Matrix aus sehr vielen mit Nullen besetzten Einträgen, können über verschiedene Techniken diese Bereiche in der Berechnung und Speicherung effizienter genutzt werden.

Die IPU-Cores können auf 900 MB In-Processor Memory zurückgreifen. Der SRAM verteilt sich über die IPU-Cores, die in IPU-Tiles organisiert sind. Die kumulierte Bandbreite beträgt 65 TB/s. In den Bow-Pods werden jeweils vier Bow-IPUs mittels eines IPU-Gateway miteinander verbunden. Dazu verfügen die Chips über 10 IPU-Links mit einer Bandbreite von 320 GB/s. An diesem IPU-Gateway-Chip können zudem DDR4- und NVMe-Speicher angebunden werden.

Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU
Graphcore Bow IPU

Die Bow Pods gibt es in Ausführungen mit 16, 32, 64, 256 und 1.024 IPUs. Vier Bow-IPUs befinden sich in einem Bow-2000 getauften System, in dem sich auch ein Prozessor befindet. Einen IPU Pod Classic mit 32 IPUs gab es bislang nicht, dieser wird nun als Zwischenstufe eingeführt. Die Bow Pods sind ab sofort verfügbar. Einzig das große Pod-1.024-System gibt es zunächst nur im Early-Access-Programm.

Gegenüberstellung der Pod-Generationen
Anzahl IPUs GC2000 IPU Bow-2000 IPU
16 4 PFLOPS 5,6 PFLOPS
32 - 11,2 PFLOPS
64 16 PFLOPS 22,4 PFLOPS
256 64 PFLOPS 89,6 PFLOPS
1.024 256 PFLOPS 358,4 PFLOPS

Dies sind die theoretischen Rechenleistungen der Chips, die in einer gewissen Anzahl zum Einsatz kommen. Für Systeme bis hunderten Chips wichtig, ist eine gute Skalierung. In dieser Hinsicht sah sich Graphcore schon auf einem guten Pfad, den man nun mit den neuen IPUs weiter fortsetzen kann.

Graphcore Bow IPU
Graphcore Bow IPU

Die rein theoretischen +40 % an Leistung belegt Graphcore mit eigenen Zahlen im Vergleich zum Vorgänger-IPU. Die Spanne reicht hier von 29 bis 39 % für wichtige AI-Anwendungen wie BERT, ResNet, GPT2, FastSpeech und mehr. Das Leistungsplus wird durch einen von 1,25 GHz ausgehend auf 1,85 GHz höheren Takt des Prozessors erreicht. Zugleich wird die Spannung reduziert, mit der der Chip betrieben wird. Graphcore beanspruchte schon mit der Vorgänger-Generation gewisse Vorteile gegenüber der Konkurrenz aus dem Hause NVIDIA. Schneller und zugleich kostengünstiger sollten die IPU-Systeme sein. Allerdings muss man hier ein paar Einschränkungen machen, denn sicherlich gibt es Anwendungen, in denen sich der Leistungsunterschied genau so darstellt, dies bedeutet aber nicht, dass man dies generell übertragen kann. Wie wir in den letzten Veröffentlichungen des MLPerf V1.1 sehen konnten, interpretiert jeder Hersteller die Ergebnisse anders. Natürlich soll die eigene Hardware immer bestmöglich dargestellt werden.

Aber wie immer bei Hersteller-Benchmarks: Diese sind mit Vorsicht zu genießen, was aber nicht nur bei Graphcore gilt, sondern auch bei den Daten, die AMD, Intel und NVIDIA veröffentlichen, der Fall ist.

Graphcore Bow IPU

Schlussendlich hat Graphcore auch noch Daten, die eine Steigerung der Effizienz belegen sollen. Hier wurde der IPU-Pod16 gegen einen neuen Bow Pod16 gestellt. Für die Leistung auf den Verbrauch bezogen, erreicht das neue Bow-basierte System in den verschiedenen Anwendungen eine um 9 bis 16 % bessere Effizienz.

Erster Prozessor mit 3D Wafer-on-Wafer

Doch wie erreicht Graphcore das Leistungs- und Effizienzplus? Die Bow-IPU ist der erste Prozessor, der ein Verfahren namens 3D Wafer-on-Wafer verwendet. Graphcore hat dazu mit TSMC zusammengearbeitet und ließ hier auch schon die Vorgänger-IPU fertigen – greift nun auch auf eine SoIC-WoW-Technologie zurück, die wir nun genauer beschreiben wollen.

Graphcore Bow IPU

Das Verfahren sieht wie folgt aus: Der Wafer mit den IPUs wird wie gewohnt belichtet und darauf befinden sich etwa 60 Colossus-Chips (so der Name der Dies mit den IPUs). Auf Seiten der Back-end of line (BEOL), also dort, wo in mehreren Metallschichten und Bahnen der Kontakt zu den Bumps hergestellt wird, wird nun ein zweiter Wafer aufgebracht. Dieser enthält keinerlei aktive Transistoren, dafür aber wird über diesen Power Delivery Wafer die Strom- und Spannungsversorgung hergestellt.

Im Power Delivery Wafer gefertigt bzw. vorhanden, sind unter anderem Deep Trench Capacitor (DTC). Diese DTCs sind vertikal arrangierte Halbleiterbauelemente, die zur Kapazitätserweiterung eingesetzt werden. Ein Vorteil der DTCs gegenüber Kondensatoren die sich auf dem Package (bzw. dessen Rückseite) befinden ist, dass sie frei und so nah wie möglich an der gewünschten Schaltung (den eigentlichen IPU-Chips) platziert werden können. Zudem bieten DTCs eine höhere Kapazität pro Fläche als andere Lösungen, wie beispielsweise Metal-Insulator-Metal-Kondensatoren (MIM), wie sie bei Intel für die 10-nm-Technik (Intel 7) zum Einsatz kommen.

Graphcore Bow-IPU

Der Aufbau sieht also wie folgt aus: Über die C4-Bumps wird der Chip mit dem Package verbunden. Eine Under-Bump Metallisierung (UBM) dient als Kontaktschicht. Back-side Through Silicon Vias (BTSV) führen von dieser direkt bis zur BEOL, um hier den Kontakt zwei BEOL der IPU-Wafer herzustellen. Die DTCs stellen an Reservoir an Ladung dar, welches von den IPU-Dies abgefragt werden kann.

Die beiden Wafer werden unabhängig voneinander gefertigt und dann zusammengeführt. Sind sie miteinander verbunden, wird der Power Delivery Wafer abgeschliffen, um darauf die UBM aufzubringen. Liegen die beiden 300-mm-Wafer übereinander und ist der obere abgeschliffen, werden die Chips darauf geschnitten.

Graphcore Bow IPU

Eines der Probleme im Wafer-on-Wafer-Verfahren ist die Tatsache, dass die Chips nicht erst getestet werden können. Die beiden Wafer werden miteinander verbunden, dann die einzelnen Chips daraus geschnitten und erst dann kann ein Testen der Chips stattfinden. Ist die Ausbeute der Chips nicht sonderlich hoch, vergeudet man natürlich viele Ressourcen auf ein Verfahren, bei dem am Ende kein funktionsfähiger Chip herauskommt.

An dieser Stelle kommen beim Bow-IPU mehrere Dinge zum Tragen. Zum Einen lässt Graphcore die IPU-Wafer weiterhin in 7 nm (TSMC N7) fertigen und die Ausbeute sollte hier inzwischen recht gut sein. Zum Zweiten besitzen die IPUs einen hohen Grad an redundanten Blöcken. Pro Chip sind am Ende 1.472 Kerne funktionsfähig, auf der Chipfläche werden aber weitaus mehr gefertigt. Gleiches gilt für die 900 MB an SRAM, die vorhanden sind. Auch diese sind in einem gewissen Anteil redundant vorhanden. Fehler in der Fertigung können so in gewisser Weise ausgeglichen werden.

Auf der ISSCC 2022 sprach Intel über die Wiederherstellbarkeit in der Fertigung für die Chips der nächsten Xeon-Generation. Solche Verfahren kommen auch für die Bow-IPUs zum Einsatz.

Bow-2000 IPU Machine und Ausblick

Laut Graphcore können die ersten Systeme auf Basis der Bow-IPUs ab sofort ausgeliefert werden. Der Preis ist identisch zu den Ausbaustufen des Vorgängers.

Graphcore Bow IPU

Als Basis eines Systems mit den neuen IPUs dient ein Bow-2000 getaufter Knoten mit vier Bow-IPUs. 16 IPU-Maschines mit jeweils vier Bow-IPUs können in ein Rack gepackt werden und nennen sich dann Bow-POD64. Die IPU-Maschines arbeiten komplett eigenständig von bestehenden Systemen und können als solche betrieben werden. Einzig zur Speicherung und dem Lesen der Daten der AI-Anwendungen sind noch Standard-Systeme notwendig.

Graphcore Bow IPU
Graphcore Bow IPU

Perspektivisch plant Graphcore den Aufbau eines "Good"-Computers. Dieser soll die nächste Generation der IPUs verwenden und aus bis zu 8.192 IPUs aufgebaut sein. AI-Modelle mit 500 Billionen (amerikanisch 500 trillion, 500.000.000.000.000) Parametern sollen darauf verarbeitet werden können. 120 Millionen US-Dollar würde ein solches System nach heutigen Berechnungen kosten.

Aus technischer Sicht sind die IPUs von Graphcore interessant und sie bedienen scheinbar auch einen gewissen Markt an AI-Anwendungen, den sie als darauf ausgelegte Hardware auch gut bedienen können. Doch nun fehlt es an Kunden und Durchsetzungskraft, denn wenn Entwickler und Anwender die Wahl zwischen zwei inkompatiblen Systemen haben, dann entscheiden sie sich meist für das, mit der größten Marktmacht – und das ist nach wie vor NVIDIA mit seinem kompletten AI-Ökosystem. Graphcore hat allerdings ein paar Kunden hinzugewonnen, die sich nun mit den IPU-Systemen beschäftigen. Um NVIDIAs Marktmacht in diesem Bereich zu brechen, bedarf es aber noch zahlreicher Anstrengungen und viel Durchhaltevermögen.

Welche ist die beste CPU?

Unsere Kaufberatung zu den aktuellen Intel- und AMD-Prozessoren hilft dabei, die Übersicht nicht zu verlieren. Dort zeigen wir, welche Prozessoren aktuell die beste Wahl darstellen - egal, ob es um die reine Leistungsfähigkeit oder das Preis-Leistungs-Verhältnis geht.


Social Links

Das könnte Sie auch interessieren:

  • Core i9-12900K und Core i5-12600K: Hybrid-Desktop-CPUs Alder Lake im Test

    Logo von IMAGES/STORIES/2017/ALDER-LAKE-REVIEW

    Heute ist es soweit: Intel holt zum Gegenschlag gegen AMD aus und will nicht mehr nur weiterhin in der Single-Threaded-Leistung besser als sein Konkurrent sein, sondern dank eines Hybrid-Designs auch in der Multi-Threaded-Leistung. Alder Lake ist laut Intel der größte Schritt in der... [mehr]

  • K wie Mittelklasse: Intel Core i7-12700K im Test

    Logo von IMAGES/STORIES/2017/ALDER-LAKE-REVIEW

    Nachdem wir uns das schnellste und das langsamste K-Modell der Alder-Lake-Prozessoren bereits angeschaut haben, folgt heute das Mittelklasse-Modell in Form des Core i7-12700K. Nach unserem initialen Test kann man sagen: Intel ist zurück! Viele Aspekte des Alder-Lake-Designs sind neu, von den... [mehr]

  • PS5-Custom-Chip mit Einschränkungen: Das Ryzen 4700S Desktop Kit im Test

    Logo von IMAGES/STORIES/2017/AMD-RYZEN-4700S

    Anfang Juni stellte AMD das Ryzen 4700S Desktop Kit vor und nachdem anfangs gar nicht so klar war, um was es sich dabei handelt, wissen wir inzwischen, dass es sich bei den hier verwendeten Prozessoren um Ausschuss handelt, der bei der Fertigung des Custom-Chips für die PlayStation... [mehr]

  • BCLK OC: Core i3-12100F und B660-Plattform-Erfahrungen

    Logo von IMAGES/STORIES/2017/BCLK-OC

    Nachdem wir uns das Thema Basistakt-Overclocking auf Basis des ASUS ROG Maximus Z690 Hero und dem Core i5-12400 bereits angeschaut haben, bekam das Thema mit der vermeintlichen Unterstützung einiger Mainboards von ASUS mit B660-Chipsatz eine interessante Wendung, da die Kombination aus günstigem... [mehr]

  • Test: Effizienz von Alder Lake in Spielen im Vergleich

    Logo von IMAGES/STORIES/2017/ALDER-LAKE-REVIEW

    In unseren bisherigen Tests der Alder-Lake-Prozessoren spielte natürlich auch der Stromverbrauch eine Rolle. Dabei haben wir aber nur Idle- und Volllast-Betrieb betrachtet, da sich diese am konsistentesten nachstellen lässt und der Volllast-Betrieb das Worst-Case-Szenario... [mehr]

  • Core i5-12400 im Test: Ohne E-Cores zur günstigen und effizienten Gaming-CPU

    Logo von IMAGES/STORIES/2017/CORE-I5-12400

    Erst vor wenigen Tagen hat Intel die Alder-Lake-Produktpalette um die sparsameren 65- und 35-W-Modelle ergänzt. Mit dem Core i5-12400 wollen wir uns heute den heißesten Anwärter auf die Preis/Leistungskrone anschauen. Natürlich gäbe es noch zahlreiche weitere interessante Modelle, wir machen... [mehr]