NEWS

MTIA 300, 400, 450 und 500

Meta zeigt Roadmap seiner KI-Beschleuniger bis 2027

Portrait des Authors


Meta zeigt Roadmap seiner KI-Beschleuniger bis 2027
0

Werbung

Meta entwickelt seit einigen Jahren seine eigenen KI-Beschleuniger namens Training and Inference Accelerator (MTIA). 2024 brachte Meta seinen ersten eigenen KI-Beschleuniger MTIA 100 in die eigenen Rechenzentren. Der primäre Anwendungsbereich für Meta in diesem Bereich sind Ranking und Recommendation (R&R), was vielen als Algorithmus der Timeline ein Begriff sein sollte. Nun hat man eine ausführliche Roadmap für die kommenden Jahre vorgestellt.

Aktuell kurz vor dem Einsatz steht der MTIA 300. Dieser wurde im Hinblick auf die Nutzung von R&R-Modellen entwickelt, Meta hat aber auch erfolgreich LLMs darauf testen können. MTIA 300 befindet sich aktuell in der Produktion.

Verglichen mit früheren Generationen bringt MTIA 300 einige zentrale Neuerungen mit: integrierte NIC‑Chiplets, dedizierte Messaging‑Engines zur Entlastung kollektiver Kommunikationsoperationen sowie ein Near‑Memory‑Compute. MTIA 300 setzt sich aus einem Compute‑Chiplet, zwei Netzwerk‑Chiplets und mehreren HBM‑Stacks zusammen. Das Compute‑Chiplet besteht aus einem Gitter von Processing Elements (PEs), wobei zusätzliche redundante PEs integriert werden, um die Ausbeute im Fertigungsprozess zu verbessern.

Jedes PE integriert mehrere spezialisierte Einheiten:
• Zwei RISC‑V‑Vektorkerne für skalare und vektorbasierte Steuer‑ und Rechenaufgaben
• Eine Dot‑Product‑Engine für Matrixmultiplikationen
• Eine Special‑Function‑Unit für Aktivierungsfunktionen und elementweise Operationen
• Eine Reduction‑Engine für Akkumulation und Inter‑PE‑Kommunikation
• Eine DMA‑Engine für den Datentransfer in den lokalen Scratch‑Speicher und aus diesem heraus

Gegenüberstellung der MTIA-Beschleuniger

MTIA 300 MTIA 400MTIA 450MTIA 500
Anwendungsbereich R&R Training GeneralGenAI InferenceGenAI Inference
TDP 800 W 1.200 W1.400 W1.700 W
HBM-Bandbreite 6,1 TB/s 9,2 TB/s18,4 TB/s27,6 TB/s
HBM-Kapazität 216 GB 288 GB288 GB384 - 512 GB
MX4-Rechenleistung - 12 PFLOPS21 PFLOPS30 PFLOPS
FP8/MX8-Rechenleistung 1,2 PFLOPS 6 PFLOPS7 PFLOPS10 PFLOPS
BF16-Rechenleistung 0,6 PFLOPS 3 PFLOPS3,5 PFLOPS5 PFLOPS
Scale-Up-Bereich 16 727272
Scale-Up-Netzwerk 1 TB/s 1,2 TB/s1,2 TB/s1,2 TB/s
Scale-Out-Netzwerk 200 GB/s 100 GB/s100 GB/s100 GB/s

MTIA 400 und 450 als konsequente Weiterentwicklung

MTIA 400 wird dahingehend angepasst werden, dass 72 dieser Chips in einem Rack zusammenarbeiten können, um auch große Modelle wie Llama 3 trainieren zu können. Zudem werden die Speicherkapazität und Speicherbandbreite erhöht. Der neue Chip bietet eine bis zu 400 % höhere FP8-Rechenleistung und eine um 51 % gesteigerte Bandbreite des HBM-Speichers. Während der MTIA 300 vor allem auf Effizienz und geringe Kosten ausgelegt war, zielt der MTIA 400 darauf ab, neben einer besseren Energieeffizienz auch eine Rechenleistung zu liefern, die mit kommerziellen High-End-Produkten konkurrieren kann.

Erstmals setzt Meta beim MTIA 400 auf ein Chiplet-Design mit zwei Rechen-Dies, um die Rechendichte im Vergleich zum Vorgänger zu verdoppeln. Darüber hinaus unterstützt die neue Generation erweiterte Varianten der Formate MX8 und MX4, die insbesondere für das Inferencing im Bereich GenAI von Bedeutung sind, da sie niedrige Präzision mit hoher Effizienz kombinieren.

Der MTIA 400 wurde in solchen Konfigurationen ebenfalls erfolgreich getestet und befindet sich aktuell kurz vor der Auslieferung in die eigenen Rechenzentren.

Spezifisch auf das Inferencing ausgelegt werden soll der MTIA 450. Entsprechend wird hier vorwiegend die Speicherbandbreite erhöht. Damit steigt die theoretische Rechenleistung (gemeinsam mit neuen Rechenformaten) bei niedriger Genauigkeit deutlich an und macht das Inferencing auf diesen Chips effizienter. Auch der MTIA wird in Rackscale-Lösungen mit bis zu 72 Chips realisiert. Die Massenproduktion von MTIA 450 soll im Frühjahr 2027 beginnen.

MTIA 500 im gleichen Jahr

Eine weitere Steigerung der Inferencing-Leistung erwartet Meta mit dem MTIA 500. Bei diesem wird vermutlich HBM4 zum Einsatz kommen – mit abermals gestiegener Speicherkapazität und Bandbreite. Gegenüber dem MTIA 450 steigt die Bandbreite des HBM-Speichers um weitere 50 %, während die Speicherkapazität um bis zu 80 % zunimmt. Auch die MX4-Rechenleistung wurde um 43 % gesteigert, um komplexe Inferenzvorgänge noch kosteneffizienter abbilden zu können.

Die neue Generation verfolgt das modulare Chiplet-Konzept konsequent weiter: Der MTIA 500 nutzt eine 2×2-Konfiguration aus vier kleineren Compute-Chiplets, die von mehreren HBM-Stapeln sowie zwei Netzwerk-Chiplets umgeben sind. Ergänzt wird das Design durch ein separates SoC-Chiplet, das die Anbindung an den Host-Prozessor über PCI Express sowie an externe Netzwerkschnittstellen (NICs) für Scale-out-Strukturen bereitstellt.

Wie schon beim MTIA 450 integriert Meta auch beim MTIA 500 zusätzliche Hardware-Beschleuniger und neue Datentyp-Innovationen, um Engpässe bei der Ausführung großer GenAI-Modelle weiter zu reduzieren. Damit soll der MTIA 500 nicht nur eine höhere Leistung pro Watt, sondern auch eine deutlich verbesserte Gesamtwirtschaftlichkeit im Rechenzentrumsbetrieb erzielen.

Auch der MTIA 500 soll bereits ab 2027 gefertigt werden. 

In der Entwicklung der Hardware arbeitet Meta mit Broadcom zusammen. Mit der eigenen Hardware kann sich Meta von externen Zulieferern wie NVIDIA und AMD unabhängiger machen und die Hardware zudem an die eigenen Anforderungen anpassen. Hinzu kommt der MTIA Software Stack, der als PyTorch-nativer Ansatz konzipiert wurde.

Back to top