Werbung
Gestern wurden die neuen Benchmarks des MLPerf Inference in der Version 6.0 veröffentlicht. Im Hinblick auf die verwendeten KI-Chips teilgenommen haben AMD, Intel und NVIDIA – allerdings in unterschiedlicher Ausbaugröße. NVIDIA fokussiert sich auf besonders große Cluster mit bis zu 72 Blackwell-Chips in einem Rack für ein möglichst effizientes Inferencing von KI-Modellen. Damit will man vorrangig ein kosteneffizientes Inferencing demonstrieren, was für die Serviceanbieter interessant ist.
Bei AMD liegt der Fokus eher darauf, dass einzelne Rechenknoten mit bis zu acht Instinct MI355X eine Alternative sein können. Lag man vor nicht allzu langer Zeit noch weit hinter dem Konkurrenten NVIDIA zurück, sieht man sich nun auf Augenhöhe. Intel will mit den Xeon-Prozessoren und der neuen Arc Pro B70 primär das lokale Inferencing in den Fokus rücken.
AMD zieht gleich und gibt Ausblick
AMD sieht die MLPerf-Inference‑6.0-Ergebnisse als Grundlage dafür, dass man nicht nur eine schnellere GPU präsentiert, sondern die eigene Plattform entlang der für Kunden relevanten Parameter weiterentwickelt hat: Single‑Node‑Leistung, effizientes Scale‑out, schnelle Inbetriebnahme neuer Modelle, Reproduzierbarkeit über Partner‑Systeme und eine zukunftsfähige Software‑Basis.
Besonders hervorgehoben wird das Überschreiten der Marke von einer Million Tokens pro Sekunde bei Llama 2 70B und GPT‑OSS‑120B im Multinode‑Betrieb, was AMD als Kriterium für eine produktionsreife Inferenzleistung auf Cluster‑Ebene interpretiert. Parallel dazu spricht der Hersteller von einem klaren Generationssprung des Instinct‑MI355X‑Beschleunigers gegenüber dem Instinct MI325X, etwa mit einem 3,1‑fachen Durchsatz bei Llama 2 70B.
Ein zweiter Schwerpunkt sind neue Workloads und Modellabdeckung: AMD zeigt Werte für das LLM-Modell GPT‑OSS‑120B und das Text‑zu‑Video‑Modell Wan‑2.2‑t2v, wo man sich bei den offiziellen MLPerf‑Einreichungen und nachträglich getunten Ergebnissen jeweils in Reichweite oder über den Werten von NVIDIAs B200/B300-Beschleuniger sieht.
Darüber hinaus stellt das Unternehmen die nahezu lineare Skalierung im Multinode‑Betrieb auf bis zu elf bzw., zwölf Knoten und über eine Million Tokens pro Sekunde für Llama 2 70B und GPT‑OSS‑120B heraus.
Als zentrale Priorität benennt AMD die ROCm‑Software, die als gemeinsamer Faden hinter allen MLPerf‑Ergebnissen dargestellt wird. ROCm soll demnach effiziente FP4‑Ausführung, optimierte GPU‑zu‑GPU‑Kommunikation für Multinode‑Scaling, dynamische Verteilung heterogener Workloads und die schnelle Unterstützung neuer Modelle wie Llama, Wan und GPT‑OSS ermöglichen. Für Kunden leitet AMD daraus praktische Ziele ab: vorhersagbares Scale‑out ohne Effizienzverlust, bessere GPU‑Auslastung zur Senkung der Kosten pro Token sowie die Reduktion von Risiko und Zeit bis zur Produktion durch reproduzierbare Ergebnisse über OEM‑, ODM‑ und Cloud‑Plattformen hinweg.
Beim Ausblick stellt AMD die MLPerf‑6.0‑Resultate in den Kontext einer jährlichen Roadmap: MI300X (2023) als Einstieg in Generative‑AI‑Workloads, MI325X (2024) mit mehr Rechenleistung und HBM3E und nun die MI350‑Serie mit MI355X (2025) als nächste Ausbaustufe für größere Modelle und effizientere Inferenz.
Für 2026 kündigt das Unternehmen die Instinct‑MI400‑Serie auf Basis von CDNA‑5 an, die zusammen mit der geplanten Helios‑Rack‑Scale‑Lösung die Brücke zu künftigen, großskaligen AI‑Infrastrukturen schlagen soll. AMD positioniert MLPerf Inference 6.0 daher ausdrücklich nicht als isolierten Benchmark‑Erfolg, sondern als Baustein einer längerfristigen Inferenzplattform, die mit Modellgrößen, Workload‑Diversität und Produktionsanforderungen mitwachsen soll.
NVIDIA will immer höher, schneller, weiter
NVIDIA beschreibt die MLPerf-Inference-6.0-Ergebnisse als Beleg für eine konsequente Co-Design-Strategie: Hardware, Software und Modelle werden laut dem Unternehmen gemeinsam optimiert, um den höchsten Durchsatz und die niedrigsten Tokenkosten zu erreichen. Im Zentrum steht dabei nicht nur die reine Chip-Leistung, sondern die Fähigkeit der kompletten Plattform, in realitätsnahen Benchmarks über ein breites Spektrum von Workloads zu überzeugen.
Ein wesentlicher Schwerpunkt liegt auf den neuen Benchmark-Szenarien und der Breite der Abdeckung. NVIDIA hebt hervor, dass die eigenen Systeme auf allen neu hinzugekommenen Modellen und Szenarien Ergebnisse geliefert haben und dabei jeweils die höchste Leistung erzielt hätten, darunter DeepSeek-R1 Interactive, Qwen3-VL-235B-A22B, GPT-OSS-120B, Wan 2.2 und DLRMv3. Besonders betont wird, dass die Plattform bei neuen multimodalen, Video- und Empfehlungslasten nicht nur mitgezogen habe, sondern sofort produktionsnah skalieren könne.
Den Full-Stack-Ansatz belegt NVIDIA mit den bei MLPerf eingereichten Zahlen, bei dem Blackwell Ultra, Quantum-X800-InfiniBand und Software-Frameworks wie TensorRT-LLM, Dynamo, vLLM und VisualGen zusammenspielen.
Bei den Prioritäten setzt NVIDIA klar auf fortlaufende Software-Optimierung und bessere Auslastung bestehender Hardware. So führt man an, dass die GB300-NVL72-Plattform innerhalb von sechs Monaten bis zu 2,7-mal mehr Token im DeepSeek-R1-Server-Szenario erreicht habe, was die Tokenkosten um mehr als 60 % senke. Als technische Hebel nennt NVIDIA unter anderem schnellere und stärker gefusete Kernel, optimiertes Attention Data Parallel, Disaggregated Serving, Wide Expert Parallel, Multi-Token Prediction und KV-aware Routing. Damit will NVIDIA zeigen, dass Leistungssteigerungen nicht nur durch neue Chips entstehen, sondern durch Software, die auch auf bereits eingeführter Hardware weitere Reserven erschließt.
Der Ausblick zielt auf immer anspruchsvollere Inferenz- und Endpoint-Workloads. NVIDIA verweist darauf, dass Modelle größer werden, Kontextlängen steigen und agentische KI neue Anforderungen an Tokenrate und Latenz stellt. Zugleich stellt NVIDIA die Scale-out-Fähigkeit heraus: Mit vier GB300-NVL72-Systemen und Quantum-X800-InfiniBand seien neue System-Throughput-Rekorde aufgestellt worden, und mit 288 Blackwell-Ultra-GPUs habe man die bislang größte Konfiguration in MLPerf Inference eingereicht.
Und Intel?
Erst kürzlich stellte Intel die Arc Pro B70 und B65 vor. Im Zuge der Ergebnisse zu MLPerf Inference 6.0 stellt Intel die Arc Pro B70 in den Fokus. Kommen gleich mehrere dieser Karten zum Einsatz, wächst der zur Verfügung stehende Speicher auf bis zu 128 GB an und macht so auch die Ausführung großer KI-Modelle möglich.
Somit beschränkt sich Intel auf das lokale Ausführen von KI-Modellen sowie auf ein Finetuning an diesen. Ein direkter Gegenspieler zu den Cloud-Lösungen von AMD und NVIDIA ist man somit nicht. Aktuell testen wir die Arc Pro B70 und werden euch hoffentlich in den kommenden Tagen den dazugehörigen Test präsentieren können.
Alle Ergebnisse zu MLPerf Inference 6.0 sind auf der Seite der MLCommons zu finden.