GTC 2026

AMD kontert NVIDIAs Inference-Versprechen

Von Andreas Schilling
Donnerstag, 19.03.2026 um 08:07 Uhr

AMD kontert NVIDIAs Inference-Versprechen

Seit einigen Monaten zeichnet sich ab, dass das Training neuer KI-Modelle zwar weiterhin ein zentrales Einsatzfeld für KI-Beschleuniger bleibt, künftig aber zunehmend auch die effiziente Bereitstellung dieser Modelle als Services im Vordergrund stehen wird. Dafür lassen sich einerseits bestehende Beschleuniger auf Basis der Blackwell- oder Rubin-Architektur einsetzen. Noch effizienter gelingt das Inferencing jedoch mit speziell angepasster Hardware, die gezielt auf diese Aufgabe ausgelegt ist.

Aus diesem Grund kombiniert NVIDIA seine Rubin-Beschleuniger mit den neuen Groq-3-LPUs, mit den Feynman-Beschleunigern soll Rubin CPX als Unterstützung hinzukommen.

Bis auf Weiteres aber werden Blackwell und Blackwell Ultra die Arbeitstiere sein - hierzu machte NVIDIA auf der GTC einige Leistungsversprechen. Basis waren keine eigenen Daten, sondern InferenceX von SemiAnalysis. Eben diese Daten hat sich AMD nun geschnappt und eine Art Gegendarstellung ausgeführt. Es geht also einmal mehr um die Deutung der vorliegenden Daten bzw. das, was einfach weggelassen wurde.

Auf der GTC nutzte NVIDIAs Benchmark für die Kosten pro Million Token die Einstellungen FP4, MTP=3 und Daten vom 7. März auf DeepSeek 1k/1k – jede dieser Entscheidungen begünstigte NVIDIAs Ergebnis.

MTP ist eine legitime Durchsatztechnik, doch die Leistungsgewinne variieren je nach Datensatz und Konfiguration. NVIDIAs Benchmark setzte MTP=3 ein; AMD verwendet derzeit standardmäßig MTP=1. Auch der Datentyp spielt eine Rolle: In diesem Fall wurde FP4 genutzt, während FP8 ebenfalls eine gängige Wahl in Produktionsumgebungen ist. Unter gleichen Bedingungen – also mit deaktiviertem MTP und FP8 bei beiden Plattformen – liegt die Kennzahl der Kosten pro Token bei der Instinct MI355X deutlich unter der des GB300 NVL72, insbesondere bei hoher Parallelität mit über 60 Transaktionen pro Sekunde und Nutzer.

Seit Februar sind die GPU-Kosten pro Token beim Instinct MI355X laut AMD deutlich gesunken, während sie beim GB300 NVL72 höher und unverändert geblieben sind.

FP8 vs. FP4

Optimierte FP4-Unterstützung für ein verteiltes Inferencing auf der Instinct-MI350‑Serie ist seitens AMD für Ende März angekündigt. AMDs ursprünglicher Fokus für verteiltes Inferencing lag auf FP8. Für FP4 liegt der Instinct-MI355X-Beschleuniger (SGLang) jedoch bereits bei über 80 TPS pro Nutzer über dem GB300 (SGLang). Zusätzliche Optimierungen werden bis Ende März erwartet.

Für 2026 rücken auch für AMD die Rackscale-Lösungen in den Fokus. Das Helios-Rack kombiniert die neuen Instinct-MI455X-Beschleuniger mit Epyc-Prozessoren (Venice) mit Zen-6-Kernen. Mit dieser Plattform will AMD ab der zweiten Jahreshälfte 2026 in allen Belangen seinem Konkurrenten NVIDIA Dampf machen.

Das übliche Hin und Her

Auch wenn sich sowohl NVIDIA als auch AMD auf Benchmarks von Drittanbieter, in diesem Fall InferenceX von SemiAnalysis, berufen, so zeigt die Situation einmal mehr, dass die vorliegenden Daten unterschiedlich interpretiert werden können. Natürlich kann auch das einfache Weglassen von Daten und Produkten für eine unterschiedliche Auslegung sorgen.

Quellen und weitere Links

KOMMENTARE (0)