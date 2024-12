Werbung

In einer Leistungsanalyse zwischen NVIDIAs aktuellen Hopper-Beschleunigern mit H100- und H200-GPU sowie AMDs Instinct MI300X zeigten sich vor allem die Nachteile des Software-Ökosystems von AMD. Auf dem Papier ist der Instinct MI300X durchaus in der Lage es mit der Konkurrenz aufzunehmen, in manchen Bereichen wäre er sogar im Vorteil. In den kommenden Monaten soll die Instinct MI325X als Nachfolger des MI300X mit 256 anstatt 192 GB HBM3E aufwarten können. In der Vorstellung zeigte AMD Vergleiche mit NVIDIAs H200-Beschleuniger und sieht sich in vielen Bereich weit vor der Konkurrenz.

Die von SemiAnalysis durchgeführte Leistungsanalyse für ein KI-Training aber zeigt ein anderes Bild. Dieses deckt sich in etwa mit den MLPerf-Ergebnissen, in denen AMD mit dem Instinct MI300X erstmals teilnahm und in denen NVIDIAs H200-Beschleuniger um bis zu 50 % schneller waren. Noch verheerender waren die Vergleiche zum B200-Beschleuniger, der um den Faktor drei schneller war.

SemiAnalysis nennt mehrere Gründe, warum AMDs Instinct-Beschleuniger in Hardware und den Zahlen auf dem Papier zwar deutlich schneller ist, in der Praxis aber meist nicht mithalten kann. Hier spielt vor allem die Software eine entscheidende Rolle. Out of the Box ist ein System mit NVIDIA-Beschleunigern recht schnell in der Lage in etwa die zu erwartende Leistung abzurufen. Dies ist bei einem System mit AMD-Hardware nicht der Fall.

So benötigt PyTorch selbst im Stable Release zunächst einige Anpassungen, um überhaupt zu funktionieren. Selbst mit Unterstützung von AMD konnte die zu erwartende Leistung bei weitem nicht erreicht werden. Zwar lagen auch die Zahlen der NVIDIA-Hardware unterhalb des theoretischen Maximums, die Zahlen der AMD-Hardware aber lagen weit unter den eigenen Zielvorgaben.

On most of our benchmarks, Public AMD stable releases of AMD PyTorch is still broken and we needed workarounds. MI300X performance is held back by AMD software. AMD MI300X software on BF16 development branches have better performance but has not yet merged into the main branch of AMD’s internal repos. - so SemiAnalysis in seiner Analyse

Doch diese Erkenntnis dürfte für AMD nicht neu sein. Schon häufiger wurde das Software-Ökosystem von AMD als größte Schwachstelle kritisiert. Genau diesem Punkt will sich AMD laut Dr. Lisa Su nach einem Gespräch mit Dylan Patel von SemiAnalysis nun annehmen.

Am Ende wird AMD aber vor allem Taten folgen lassen müssen, denn der Nachholbedarf bei der Sofware ist wie gesagt nicht neu. NVIDIA hat durch seine langjährige Compute-Strategie einen gewissen Vorteil, der nicht leicht einzuholen sein wird.

Aber Nachteile in der Software bzw. der Softwarequalität hat AMD nicht nur bei den Kernel und APIs für KI-Anwendungen, sondern immer mal wieder auch in den Software-Paketen für die Endkunden-Hardware.