Meta entwickelt seit einigen Jahren seine eigenen KI-Beschleuniger namens Training and Inference Accelerator (MTIA). 2024 brachte Meta seinen ersten eigenen KI-Beschleuniger MTIA 100 in die eigenen Rechenzentren. Der primäre Anwendungsbereich für Meta in diesem Bereich sind Ranking und Recommendation (R&R), was vielen als Algorithmus der Timeline ein Begriff sein sollte. Nun hat man eine ausführliche Roadmap für die kommenden Jahre vorgestellt.

Aktuell kurz vor dem Einsatz steht der MTIA 300. Dieser wurde im Hinblick auf die Nutzung von R&R-Modellen entwickelt, Meta hat aber auch erfolgreich LLMs darauf testen können. MTIA 300 befindet sich aktuell in der Produktion.

Verglichen mit früheren Generationen bringt MTIA 300 einige zentrale Neuerungen mit: integrierte NIC‑Chiplets, dedizierte Messaging‑Engines zur Entlastung kollektiver Kommunikationsoperationen sowie ein Near‑Memory‑Compute. MTIA 300 setzt sich aus einem Compute‑Chiplet, zwei Netzwerk‑Chiplets und mehreren HBM‑Stacks zusammen. Das Compute‑Chiplet besteht aus einem Gitter von Processing Elements (PEs), wobei zusätzliche redundante PEs integriert werden, um die Ausbeute im Fertigungsprozess zu verbessern.

Jedes PE integriert mehrere spezialisierte Einheiten:

• Zwei RISC‑V‑Vektorkerne für skalare und vektorbasierte Steuer‑ und Rechenaufgaben

• Eine Dot‑Product‑Engine für Matrixmultiplikationen

• Eine Special‑Function‑Unit für Aktivierungsfunktionen und elementweise Operationen

• Eine Reduction‑Engine für Akkumulation und Inter‑PE‑Kommunikation

• Eine DMA‑Engine für den Datentransfer in den lokalen Scratch‑Speicher und aus diesem heraus

Gegenüberstellung der MTAI-Beschleuniger

MTAI 300 MTAI 400 MTAI 450 MTAI 500 Anwendungsbereich R&R Training General GenAI Inference GenAI Inference TDP 800 W 1.200 W 1.400 W 1.700 W HBM-Bandbreite 6,1 TB/s 9,2 TB/s 18,4 TB/s 27,6 TB/s HBM-Kapazität 216 GB 288 GB 288 GB 384 - 512 GB MX4-Rechenleistung - 12 PFLOPS 21 PFLOPS 30 PFLOPS FP8/MX8-Rechenleistung 1,2 PFLOPS 6 PFLOPS 7 PFLOPS 10 PFLOPS BF16-Rechenleistung 0,6 PFLOPS 3 PFLOPS 3,5 PFLOPS 5 PFLOPS Scale-Up-Bereich 16 72 72 72 Scale-Up-Netzwerk 1 TB/s 1,2 TB/s 1,2 TB/s 1,2 TB/s Scale-Out-Netzwerk 200 GB/s 100 GB/s 100 GB/s 100 GB/s

MTAI 400 und 450 als konsequente Weiterentwicklung

MTIA 400 wird dahingehend angepasst werden, dass 72 dieser Chips in einem Rack zusammenarbeiten können, um auch große Modelle wie Llama 3 trainieren zu können. Zudem werden die Speicherkapazität und Speicherbandbreite erhöht. Der neue Chip bietet eine bis zu 400 % höhere FP8-Rechenleistung und eine um 51 % gesteigerte Bandbreite des HBM-Speichers. Während der MTIA 300 vor allem auf Effizienz und geringe Kosten ausgelegt war, zielt der MTIA 400 darauf ab, neben einer besseren Energieeffizienz auch eine Rechenleistung zu liefern, die mit kommerziellen High-End-Produkten konkurrieren kann.

Erstmals setzt Meta beim MTIA 400 auf ein Chiplet-Design mit zwei Rechen-Dies, um die Rechendichte im Vergleich zum Vorgänger zu verdoppeln. Darüber hinaus unterstützt die neue Generation erweiterte Varianten der Formate MX8 und MX4, die insbesondere für das Inferencing im Bereich GenAI von Bedeutung sind, da sie niedrige Präzision mit hoher Effizienz kombinieren.

Der MTIA 400 wurde in solchen Konfigurationen ebenfalls erfolgreich getestet und befindet sich aktuell kurz vor der Auslieferung in die eigenen Rechenzentren.

Spezifisch auf das Inferencing ausgelegt werden soll der MTAI 450. Entsprechend wird hier vorwiegend die Speicherbandbreite erhöht. Damit steigt die theoretische Rechenleistung (gemeinsam mit neuen Rechenformaten) bei niedriger Genauigkeit deutlich an und macht das Inferencing auf diesen Chips effizienter. Auch der MTAI wird in Rackscale-Lösungen mit bis zu 72 Chips realisiert. Die Massenproduktion von MTAI 450 soll im Frühjahr 2027 beginnen.

MTAI 500 im gleichen Jahr

Eine weitere Steigerung der Inferencing-Leistung erwartet Meta mit dem MTAI 500. Bei diesem wird vermutlich HBM4 zum Einsatz kommen – mit abermals gestiegener Speicherkapazität und Bandbreite. Gegenüber dem MTIA 450 steigt die Bandbreite des HBM-Speichers um weitere 50 %, während die Speicherkapazität um bis zu 80 % zunimmt. Auch die MX4-Rechenleistung wurde um 43 % gesteigert, um komplexe Inferenzvorgänge noch kosteneffizienter abbilden zu können.

Die neue Generation verfolgt das modulare Chiplet-Konzept konsequent weiter: Der MTIA 500 nutzt eine 2×2-Konfiguration aus vier kleineren Compute-Chiplets, die von mehreren HBM-Stapeln sowie zwei Netzwerk-Chiplets umgeben sind. Ergänzt wird das Design durch ein separates SoC-Chiplet, das die Anbindung an den Host-Prozessor über PCI Express sowie an externe Netzwerkschnittstellen (NICs) für Scale-out-Strukturen bereitstellt.

Wie schon beim MTIA 450 integriert Meta auch beim MTIA 500 zusätzliche Hardware-Beschleuniger und neue Datentyp-Innovationen, um Engpässe bei der Ausführung großer GenAI-Modelle weiter zu reduzieren. Damit soll der MTIA 500 nicht nur eine höhere Leistung pro Watt, sondern auch eine deutlich verbesserte Gesamtwirtschaftlichkeit im Rechenzentrumsbetrieb erzielen.

Auch der MTAI 500 soll bereits ab 2027 gefertigt werden.



In der Entwicklung der Hardware arbeitet Meta mit Broadcom zusammen. Mit der eigenen Hardware kann sich Meta von externen Zulieferern wie NVIDIA und AMD unabhängiger machen und die Hardware zudem an die eigenen Anforderungen anpassen. Hinzu kommt der MTIA Software Stack, der als PyTorch-nativer Ansatz konzipiert wurde.