Werbung
Die immer größeren KI-Modelle verlangen nach immer größerem und schnellerem Speicher, was einer der maßgeblichen Motoren in der aktuellen Speicherknappheit ist. Darunter leidet aber die Effizienz im Angebot dieser KI-Modelle, da die Hardware viel und schnellen Speicher benötigt, was sie teuer macht. Das kanadische Unternehmen Taalas hat bereits im vergangenen Jahr den HC1-Beschleuniger angekündigt, der einen anderen Weg gehen soll.
Anstatt viel Speicher für die Gewichtung des Large Language Models auf dem lokalen Speicher vorzuhalten, werden diese und das gesamte LLM in Silizium gegossen. Dies beschränkt die Hardware auf ein bestimmtes LLM, macht das Inferencing aber um gleich mehrere Faktoren schneller.
Der HC1-Beschleuniger besteht aus einem Chip, der mit dem Llama 3.1 8B ein den aktuellen Maßstäben recht kleines LLM enthält. Es handelt sich um eine erste Umsetzung, und klar ist: Die Hardwareentwicklung solcher Chips kann mit der aktuellen Entwicklung der Modelle nicht mithalten. Aber auch diesem Problem möchte sich Taalas widmen.
Der erste Chip – der HC1 – wurde in wenigen Monaten entwickelt und soll 30 Millionen US-Dollar gekostet haben. Taales will die Hardware-Umsetzung eines KI-Modells in einen Chip auf zwei Monate drücken können. Die Fertigung des Chips dürfte für die Zeit der wichtigste Faktor sein. Ein Tape Out nimmt mitsamt der Verifikation mehrere Monate in Anspruch. Doch Taales wird darauf angewiesen sein, dass dies deutlich schneller geht, was zusätzliche Kosten verursachen dürfte.
Den HC1 hat man bei TSMC fertigen lassen. Allerdings kam hier keiner der aktuellen Fertigungsprozesse zum Einsatz, sondern der kosteneffiziente N6-Prozess. Mit 815 mm² bewegt man sich damit im Reticle Limit für die Fertigung moderner Chips im EUV-Verfahren. Viel größer können die Chips nicht werden und der HC1 setzte nur ein Llama 3.1 8B um.
Die Fertigung in N6 reduziert die Kosten und zudem ist man nicht auf teuren Speicher und ein Advanced Packaging angewiesen. Auch dies soll in Faktor für den praktischen Einsatz des Konzepts sein. Allerdings wird man bis auf Weiteres nur bestimmte Modelle mit einer sinnvollen Größe in einen Chip gießen können. Llama 3.1 8B kommt auf acht Milliarden Parameter. Moderne LLMs oder har Mixture‑of‑Experts‑Modelle (MoE) kommen auf mehrere hundert Milliarden Parameter – manche haben sogar schon die Billionen-Grenze überschritten. Diese in Silizium zu überführen, ist aktuell nicht möglich.
Der Vorteil des in Hardware gegossenen LLMs zeigt sich in der Geschwindigkeit und Effizienz. Der HC1 erzeugt pro Sekunde und Nutzer mehr als die achtfache Anzahl an Tokens im Vergleich zur bislang leistungsstärksten Konkurrenzlösung, dem Cerebras WSE‑3. Auch die Time to first Token (TTFT) ist extrem gering. Für den HC1 hat Taalas die Gewichte des LLMs auf 3- oder 6-Bit-Datentypen quantisiert.
Im Frühjahr 2026 soll eine zweite Variante des HC1-Chips erscheinen, welche ein anderes Modell umsetzt, welches mehrere hundert Milliarden Parameter besitzen soll. Wo und in welchem Verfahren die Fertigung stattfinden soll, wenn der aktuelle HC1 in N6 gefertigt schon an seine Grenzen kommt, ist nicht bekannt. Theoretisch ist es denkbar, dass Taalas auf mehrere Chips setzt, die zusammenarbeiten.
Für den Jahreswechsel 2026/27 plant man den HC2. Dieser soll 4-Bit-Datentypen nutzen und die Ausführung der dann aktuellen Frontier-Modelle ermöglichen.
Für Taales besteht die Herausforderung darin, im Katz-und-Maus-Spiel um die schnellsten und besten Modelle möglichst flexibel zu bleiben. Aktuelle KI-Beschleuniger von AMD, NVIDIA, Google und vielen mehr können verschiedenste KI-Modelle mehr oder weniger gut ausführen. Mit Fokus auf dem Inferencing besteht aber die Möglichkeit, dass es wirtschaftlich sinnvoll wird, ein bestimmtes Modell auf absehbare Zeit fix auf einer bestimmten Hardware auszuführen.