Die MLCommons hat heute die nächste Testrunde für Inferencing-Benchmarks in Version 5.1 gestartet und dabei spannende Leistungsdaten zu modernen KI-Beschleunigern veröffentlicht. Als neutrale Organisation kann sie in Kooperation mit den Herstellern oft verlässlichere Ergebnisse bereitstellen, als es die Unternehmen selbst gewöhnlich tun. In den MLPerf-Inference-5.0-Ergebnissen erstmals geführt wurden die Beschleuniger B200 und GB200 von NVIDIA, TPU v6e von Google und der Instinct MI325X von AMD.
Wir werfen heute einen Blick auf einen Ausschnitt der Ergebnisse. Die aktuellen Werte sind in der vollständigen Form auf der Webseite der MLCommons zu finden. Neu sind die interaktiven Benchmarks für Llama 3.1 405B und Llama 3.1 8B. Hinzu kommt der Benchmark zu DeepSeek-R1.
Bevor wir zu den ersten Benchmarks kommen, eine kurze Erklärung: In der Closed Division müssen alle Teilnehmer exakt das vorgegebene Referenzmodell mit definierten Parametern nutzen und erreichen strenge Genauigkeits- und Leistungsanforderungen, was eine standardisierte Vergleichbarkeit sicherstellt. Die Open Division erlaubt es den Teilnehmern hingegen, das Modell anzupassen oder zu modifizieren, um unterschiedliche Leistungs- und Qualitätsziele zu demonstrieren. Somit stellt die Closed Division sicher, dass die Vergleiche fair und reproduzierbar sind, während die Open Division Raum für Experimente und Weiterentwicklungen in Modell und Infrastruktur bietet.
Erstmals in den MLPerf-Benchmarks zu finden, ist die AMD Instinct MI355X, allerdings nur in der Open Division, was eine Vergleichbarkeit erschwert. NVIDIAs GB300-Beschleuniger ist in der Closed Division zu finden. Den Benchmark zu DeepSeek-R1 hat AMD hier aber ausgelassen. Somit wird auch dieser Vergleich erschwert.
MLPerf Inference 5.1
Open Division, llama2-70b-99.9, Offline
Werbung
Zunächst haben wir uns den Llama 2-70B im Offline-Modus angeschaut, da wir hier einen Blick auf die Leistung des MI355X-Beschleunigers von AMD werfen können. Acht Instinct MI355X sind schaffen fast 3,5mal mehr Tokens pro Sekunde als acht Instinct MI300X. AMDs vorherige Lösung bewegt sich in etwa auf Niveau der H100- und H200-Beschleuniger von NVIDIA. Acht der aktuelleren B200-Beschleuniger sind um den Faktor 2,5 schneller als die Instinct MI300X, werden aber von den neueren Instinct MI355X um 40 % geschlagen.
32 Instinct MI355X skalieren mit 377 % recht gut gegenüber dem Einsatz von acht Instinct MI355X, was eine gute Skalierung des Systems belegt. Wird von 32 auf 64 verdoppelt, steigt der Durchsatz an Tokens pro Sekunde um 84,8 % – ebenfalls eine recht gute Skalierung.
Leider fehlen Einreichungen zu NVIDIAs aktueller GB200/GB300-Lösung für diesen Benchmark, sodass wir AMDs hochskalierte Lösung nicht gegen eine entsprechende Lösung von NVIDIA vergleichen können.
MLPerf Inference 5.1
Closed Division, llama2-70b-99, Offline
Für den Llama-2-70B-Benchmark aus der Closed Division können wir immerhin NVIDIAs aktuelle Lösungen gegen AMDs Instinct MI325X vergleichen. Hier zeigt sich die Dominanz von NVIDIA, denn die H200-Beschleuniger wurden bereits hunderttausendfach ausgeliefert und schlagen AMDs Instinct MI325X. Die neuen Lösungen auf Basis von Blackwell setzen sich deutlich ab.
MLPerf Inference 5.1
Closed Division, deepseek-r1, Offline
Schlussendlich kann auch Blackwell Ultra in Form des GB300-Beschleunigers sowie der GB300-NVL72-Racklösung noch zeigen, was es leisten kann. Einerseits zeigt sich zwischen acht und 72 GB300-Beschleunigern eine Skalierung von 875 %, was nahe dem perfekten Maximum von Faktor neun ist. Das NVL72-Racksystem GB300 ist gegenüber dem GB200 ebenfalls im fast 50 % schneller. Dies entspricht der von NVIDIA gemachten Versprechung, Blackwell Ultra wäre um 50 % schneller wie Blackwell.
NVIDIA bleibt unangefochten
Das Kräfteverhältnis bei KI-Beschleunigern ist weiterhin von der klaren Marktführerschaft NVIDIAs geprägt. Dies zeigt sich auch einmal mehr an den Ergebnissen des MLPerf Inference 5.1. AMD gewinnt aber zunehmend an Boden, vor allem im Bereich des Inferencing mit der Instinct-MI350/MI355-Serie und vermutlich auch der kommenden MI400-Generation. NVIDIA punktet mit einem umfassenden Ökosystemen und kompletten Serverlösungen, was ihnen einen strategischen Vorteil verschafft, während AMD durch Open-Source, sowie günstigere und effizientere Chips eine Alternative darstellt.
Update: Auch Intels Arc Pro B60 erstmals dabei
Auch Intels Arc Pro B60 ist erstmals dabei. Es handelt sich dabei um die Maxsun Intel Arc Pro B60 Dual 48G Turbo, auf der gleich zwei GPUs auf einem PCB werkeln. In Intels Einreichung zum Einsatz kommen vier dieser Karte, sprich acht GPUs. Zusammengeschaltet werden die GPUs per PCI-Express und über Intels Battlematrix-Softwarelösung.
Wir haben die ersten beiden Diagramme um die Ergebnisse der acht Maxsun Intel Arc Pro B60 Dual 48G Turbo ergänzt. Die Rohleistung reicht natürlich nicht aus, um es mit den Datacenter-Lösungen aufzunehmen. Gegenüber den teuren Lösungen allenfalls hervortun kann sie sich durch den Preis. Allerdings fällt dieser Vorteil allenfalls gegenüber der NVIDIA L40S erwähnenswert stark aus.