1. Hardwareluxx
  2. >
  3. News
  4. >
  5. Hardware
  6. >
  7. Prozessoren
  8. >
  9. 2. Generation der Wafer Scale Engine hat nun 850.000 AI-Kerne und ist weiterhin riesig

2. Generation der Wafer Scale Engine hat nun 850.000 AI-Kerne und ist weiterhin riesig

Veröffentlicht am: von

cerebras-wseAuf der Linley Spring Processor Conference 2021 hat Cerebras seine zweite Generation der Wafer Scale Engine oder kurz WSE-2 vorgestellt. Im Sommer 2019 sorgte der gigantische AI-Chip mit 46.225 mm² für Aufmerksamkeit, da er neben der Fertigung auch in der Anwendung völlig neue Konzepte anführte. Die zweite Genration setzt den Weg fort, den man eingeschlagen hat.

Durch die Fertigung ist man allerdings in gewisser Weise limitiert. Aus einem runden Wafer mit einem Durchmesser von 300 mm kann kein Chip hergestellt werden, der bei rechteckigen Abmessungen größer als diese 46.225 mm² sein kann. Insofern bleibt es auch bei der zweiten Generation bei diesen Abmessungen. Allerdings wechselt man von einer Fertigung in 16 nm bei TSMC zur Fertigung in 7 nm. Dies macht es möglich, dass nicht mehr "nur" 400.000 AI-Kerne auf dem Chip Platz haben, sondern nun mehr als doppelt so viele – 850.000 sind es um genau zu sein. Die Anzahl der Transistoren steigt von 1.200 Milliarden auf 2.600 Milliarden. Die Größe des integrierten SRAM wächst von 18 auf 40 GB. Die kombinierte Speicherbandbreite beläuft sich auf 20 PB/s. Der Interconnect, der alle 850.000 AI-Kerne miteinander verbindet, kommt auf eine kombinierte Bandbreite von 220 PB/s. In beiden Fällen ist dies ebenfalls eine Verdopplung gegenüber dem Vorgänger.

Die eigentlichen AI-Kerne (Sparse Linear Algebra Compute Cores) SLAC haben in der Mikroarchitektur ebenfalls einige Änderungen erhalten. Auf Details geht Cerebras aber nicht ein. Ein paar weitere Details gibt es zum Aufbau: Der Chip besteht aus 84 Dies, die aber eben auf dem Wafer verbleiben und über 84 unabhängige Taktdomains verfügen. Diese 84 Chips werden auch unabhängig voneinander mit Spannung versorgt.

Gegenüberstellung der WSE-Generationen

WSE-1 WSE-2
Fertigung 16 nm 7 nm
Chipgröße 46.225 mm² 46.225 mm²
Anzahl der Transistoren 1.200 Milliarden 2.600 Milliarden
AI-Kerne 400.000 850.000
SRAM 18 GB 40 GB
Speicherbandbreite 9 PB/s 20 PB/s
Fabric-Bandbreite 100 PB/s 220 PB/s

Noch eindrucksvoller sind diese Zahlen, wenn man die WSE-2 mit anderen Chips vergleicht. Der NVIDIA A100 kommt als größte GPU auf 826 mm². Darin bringt NVIDIA 54 Milliarden Transistoren unter. Die Anzahl der Kerne ist etwas schwer zu bestimmen. So verbaut NVIDIA hier 6.912 FP32-Recheneinheiten, 3.456 FP64-Recheneinheiten und 432 Tensor Cores. Der L2-Cache ist mit 40 MB natürlich ebenfalls deutlich kleiner. Mit HBM2E kommt die GA100-GPU inzwischen auf 2 TB/s an Speicherbandbreite und NVLink 3.0 bietet immerhin 600 GB/s zwischen mehreren GA100-GPUs. Aber wie gesagt: Nicht alle diese Zahlen lassen sich auch gut miteinander vergleichen.

Die Fertigung eines Chips in der Größe eines Wafers hat natürlich Herausforderungen hinsichtlich der Ausbeute – sollte man denken, denn Cerebras hat auch diesen Aspekt neu betrachtet und ist zu einer interessanten Lösung gekommen, die man bereits für die erste Generation einsetzte. Cerebras ließ 1,0 bis 1,5 % an zusätzlichen AI-Kernen fertigen. Kommt es also zu Fehlern in der Fertigung, hat man eben diese 1,0 bis 1,5 % als Sicherheit auf dem Chip. Dies handhabt man für die WSE-2 mit 1 bis 2 % ähnlich. Fällt einer der Kerne aus, wird der ebenfalls redundant vorhandene Fabric umgeleitet, um den defekten Kern auszusparen und einen der zusätzlichen Kerne zu verwenden. Cerebras bestätigte allerdings auch, dass die Ausbeute in 7 nm deutlich geringer ist, als dies für 16 nm der Fall war. Offenbar aber kann man dies über die Redundanz kompensieren.

Aber diesem Thema haben wir uns schon genauso gewidmet wie dem eigentlichen System, in dem ein solcher Chip steckt. Stromversorgung, Kühlung, Anbindung an weitere Systeme – all dies kann die theoretische Leistung eines solch gigantischen Chips überhaupt erst nutzbar machen. Das CS-2 soll als Gesamtsystem ähnlich bis identisch aufgebaut sein. Wir reden also von einer Leitungsaufnahme von 20 kW und der schnellen Netzwerkanbindung über zwölf 100-GbE-Anschlüsse. Gekühlt wird der Chip über eine Wasserkühlung.

Weiterhin viel Arbeit steckt Cerebras auch weiterhin in die Software, um die Sparse Linear Algebra Compute (SLAC) Cores vollständig nutzen zu können. ML-Frameworks wie TensorFlow und PyTorch werden bereits unterstützt. Es gibt auch bereits einen Cerebras Graph Compiler (CGC), um benutzerspezifische Daten auf ein ML-Netzwerk zu überführen. Die Software soll neben der extremen Bandbreite des Interconnects dafür sorgen, dass die Auslastung der Hardware extrem hoch ist und die Rechenleistung dementsprechend ihr Maximum erreicht. Die 850.000 Kerne müssen auch gefüttert und ausgelastet werden, damit ein solches System sein Leistungspotential auch abrufen kann.

Ab dem dritten Quartal will Cerebras die ersten CS-2 mit WSE-2 ausliefern. Der Preis des CS-1 lag bei knapp über zwei Millionen US-Dollar. Ein CS-2-System soll "mehrere Millionen US-Dollar" kosten.

Welche ist die beste CPU?

Unsere Kaufberatung zu den aktuellen Intel- und AMD-Prozessoren hilft dabei, die Übersicht nicht zu verlieren. Dort zeigen wir, welche Prozessoren aktuell die beste Wahl darstellen - egal, ob es um die reine Leistungsfähigkeit oder das Preis-Leistungs-Verhältnis geht.


Social Links

Das könnte Sie auch interessieren:

  • Der König ist bezwungen: AMD Ryzen 9 5900X und Ryzen 5 5600X im Test

    Logo von IMAGES/STORIES/2017/AMD_RYZEN_9_5900X_5600X_REVIEW-TEASER

    Seit heute sind die ersten Ableger der neuen Ryzen-5000-Familie erhältlich. Mit ihnen will AMD die letzte Intel-Bastion zu Fall bringen und endlich auch bei der Spieleleistung wieder ganz vorne mitspielen, nachdem man dem Konkurrenten mit seinen Matisse-Ablegern in Sachen Preis und... [mehr]

  • Generations-Nachzügler: AMD Ryzen 9 5950X und Ryzen 7 5800X im Test

    Logo von IMAGES/STORIES/2017/AMD_RYZEN_9_5950X_5800X-TEASER

    Wie angekündigt hat uns AMD pünktlich zum gestrigen Marktstart der ersten vier Ryzen-5000-Modelle inzwischen auch mit den noch fehlenden zwei Modellvarianten versorgt. Wir komplettieren die Testreihen daher nun um das Topmodell mit 16 Kernen, den AMD Ryzen 9 5950X, und um den AMD Ryzen 7 5800X... [mehr]

  • Prozessor non grata: Rocket Lake-S als Core i7-11700K im Vorab-Test (Update)

    Logo von IMAGES/STORIES/2017/COREI7-11700K

    Gut einen Monat vor dem offiziell geplanten Verkaufsstart konnte jeder Nutzer bereits den Core i7-11700K erstehen. Mindfactory verkaufte den Prozessor tagelang und jeder der wollte, konnte diesen auch bestellen. Auch wir haben die Gelegenheit ergriffen und präsentieren bereits heute einen... [mehr]

  • Günstiger 10-Kern-Einstieg: Intel Core i9-10850K im Test

    Logo von IMAGES/STORIES/2017/INTEL-CML-S

    Ende Juli stellte Intel in einem kleinen, zweiten Schwung einige weitere neue Modelle an Comet-Lake-S-Prozessoren vor. Die wichtigste Neuvorstellung ist dabei sicherlich der Core i9-10850K, der sich knapp unter dem Core i9-10900K aufstellt. Zehn Kerne, etwas niedrigere Taktraten, dafür ein um... [mehr]

  • Ohne K ein guter Allrounder: Der Intel Core i5-10400F im Test

    Logo von IMAGES/STORIES/2017/CORE-I5-10400F

    Nach dem initialen Test des Core i5-10600K und dem Top-Modell Core i9-10900K schauen wir uns heute noch mit dem Core i5-10400F ein kleineres Modell an. Als Non-K-Modell verfügt er nicht mehr über einen offenen Multiplikator und weißt auch ansonsten unter Umständen noch einige... [mehr]

  • Refresh-Nachzügler: AMD Ryzen 7 3800XT und Ryzen 5 3600XT im Test

    Logo von IMAGES/STORIES/2017/AMD_MATISSE_REFRESH_TRIPLE-TEASER

    Wenige Tage nach unserem Test zum AMD Ryzen 9 3900XT versorgte uns die Chipschmiede mit den beiden kleineren Serienvertretern der Matisse-Refresh-Generation, die dank zahlreicher Verbesserungen im Fertigungsprozess und etwas höherer Taktraten die Effizienz gegenüber den bestehenden Modellen... [mehr]