Cerebras CS-1

AI-Riesenchip in 15U mit aufwändiger Kühlung

Von Andreas Schilling
Mittwoch, 20.11.2019 um 13:06 Uhr

AI-Riesenchip in 15U mit aufwändiger Kühlung

Nach der Ankündigung des gigantischen Chips im Sommer und dem Blick auf die Herausforderungen in der Fertigung hat Cerebras nun ein erstes konkretes System vorgestellt, welches die Wafer Scale Engine (WSE) verwendet. 46.225 mm², 1,2 Billionen Transistoren, über 400.000 AI-Kerne und 18 GB an SRAM auf einem Chip machen die Dimensionen deutlich.

Das CS-1 getaufte System hat eine Höhe von 15U. Es belegt damit etwa ein Drittel eines standardmäßigen Datacenter-Racks. Die Außenanbindung findet über 12x 100 Gigabit-Ethernet-Schnittstellen (100GBase-SR4) statt. Ein solches CS-1-System beherberg dabei nur eine einzige WSE. Das Gesamtgewicht des Systems beträgt 254 kg.

Gekühlt wird der WSE durch eine interne Wasserkühlung. Nach außen geführt wird das Warmwasser also nicht. Rund ein Achtel des gesamten Bauvolumens ist für zwei Pumpen vorgesehen. Diese arbeiten redundant und können im laufenden Betrieb gewechselt werden. Welches Wasservolumen diese Pumpen befördern können, ist nicht bekannt. Das warme Wasser wird in einen großen Radiator geführt, welcher sich im hinteren Bereich des Systems befindet. Vorne sind vier große Lüfter verbaut. Diese können ebenfalls im laufenden Betrieb getauscht bzw. herausgenommen werden, um beispielsweise die Lüfter zu tauschen oder zu reinigen. Jeweils drei Lüfter müssen immer im System verbleiben, einer kann demnach ausgetauscht werden. Die vier Lüfter fördern 0,95 m3/s.

Der obere Bereich des CS-1 dient der Stromversorgung sowie der Ein- und Anbindung der eigentlichen Hardware – dem WSE. Ganz oben sind die zwölf 100-Gigabit-Ethernet-Schnittstellen zu erkennen. Darunter sind 6+6 Netzteile verbaut, die ebenfalls in einer redundanten Form vorliegen und demnach im laufenden Betrieb getauscht werden können. Die Leistungsaufnahme soll bei etwa 20 kW liegen.

Eine NVIDIA DGX-2 kommt auf 10U und besitzt 16 Tesla V100, die per NVLink miteinander verbunden sind. Ein solches System hat eine Leistungsaufnahme von 10 kW und wird ebenfalls intern, also ohne einen externen Wärmetauscher gekühlt. 10 oder 13 kW sind auf 10 oder gar 15U also keine Besonderheit und dennoch ist die Kühlung des CS-1 besonders aufwändig, weil sich die Abwärme fast ausschließlich auf die WSE beschränkt und damit extrem konzentriert ist.

Die Magie findet dann im hinteren, oberen Bereich im Engine Block statt. Die Stromversorgung und Kühlung bzw. das kühle Wasser werden hier zusammengeführt. Mehr als die Hälfte des Engine Blocks dient der Stromversorgung bzw. der Zuführung der Versorgung zum PCB der WSE. Diese sitzt in einem passiven Block aus Aluminium, durch den das Kühlwasser geleitet wird. Die sechs Schnellanschlüsse der Wasserkühlung dienen jeweils zweimal den Pumpen und einmal dem Radiator.

Ein CS-1-System als solches ist bereits ein beeindruckendes Stück Hardware – nicht nur weil hier ein riesiger Chip verbaut ist, sondern auch weil der Aufwand der Kühlung und die Stromversorgung enorm sind. Nun bietet ein solches System bereits eine herausragende Leistung – zumindest auf dem Papier. Es besteht außerdem die Möglichkeit, mehrere der CS-1-Systeme in einem Cluster zusammenzuführen. Die dazu notwendige Anbindung für einen Interconnect ist bereits vorhanden.

Nun muss Cerebras noch an der Software arbeiten, um die Sparse Linear Algebra Compute (SLAC) Cores vollständig nutzen zu können. ML-Frameworks wie TensorFlow und PyTorch werden bereits unterstützt. Es gibt auch bereits einen Cerebras Graph Compiler (CGC), um benutzerspezifische Daten auf ein ML-Netzwerk zu überführen. Die Software soll neben der extremen Bandbreite des Interconnects dafür sorgen, dass die Auslastung der Hardware extrem hoch ist und die Rechenleistung dementsprechend ihr Maximum erreicht.

Hinsichtlich der Rechenleistung soll ein CS-1-System in etwa die gleiche AI-Leistung (vermutlich INT8 oder geringer) wie 1.000 NVIDIA Tesla V100 besitzen. Gegenüber einem TPU 2 Pod soll ein einzelnes System in etwa die dreifache Rechenleistung besitzen. Nun gilt es diese Zahlen durch externe Institutionen zu bestätigen. Das Argonne National Laboratory ist eines der ersten Institute, welches ein CS-1 testen wird.

Unbekannt ist der Preis eines CS-1 mit dem WSE-Chip. Ein NVIDIA DGX-2 kostet etwa 400.000 US-Dollar. Erste Informationen zum WSE gab es zur Hotchips im Sommer. Erst kürzlich haben wir die Hürden in einer Fertigung eines solches Chips genauer beleuchtet.

Quellen und weitere Links