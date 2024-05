Qualcomm will die schnellste NPU haben

Qualcomm will die schnellste NPU haben

In der inzwischen üblichen Salamitaktik hat Qualcomm in den vergangenen Wochen und Monaten die Details zu Snapdragon-X-Serie veröffentlicht. Zuletzt wurde mit dem Snapdragon X Plus eine weitere SoC-Option vorgestellt, welche nicht so hoch taktet und "nur" zehn Kerne zu bieten hat, die NPU-Leistung soll mit 45 TOPS aber überall gleich sein.

Die KI-Rechenleistung ist auch das, auf was sich alle Hersteller aktuell stürzen und so dürfte das KI-Thema auch die Computex dominieren, die in wenigen Tagen startet. Vor wenigen Tagen teilte Intel einige weitere Details zu Lunar Lake und auch hier war die NPU ein wichtiger Aspekt. Mehr als 45 TOPS soll Lunar Lake zu bieten haben, wenn die Prozessoren im drittel Quartal auf den Markt kommen. Damit läge man mit Qualcomm gleichauf. AMD plant mit Strix Point 39+ TOPS – damit liegen alle drei Hersteller auf ähnlichem Niveau.

Wie bei allen Herstellern ist die NPU eine dedizierte Hardware, die für bestimmte Berechnungen besonders effizient sein soll. Je nach Aufgabe und Datentyp werden einige Berechnungen weiterhin auf den CPU-Kernen und der GPU ausgeführt werden.

Die Hexagon NPU der Qualcomm-SoCs ist ein Bestandteil des Chips selbst – bei Intel im SoC-Tile, bei AMD sitzt diese ebenfalls mit auf dem monolithischen Chip mit den CPU-Kernen.

In der groben Übersicht setzt Qualcomm inzwischen auf die dritte Generation der hauseigenen NPUs. 2004 waren dies noch DSPs, die hauptsächlich Audiosignale verarbeiteten. Ab 2014 konnte man dann von einer NPU sprechen, die um den Faktor zehn schneller als die DSPs ist. Die aktuelle NPU-Generation ist noch einmal um den Faktor zehn schneller und übernimmt damit auch weitreichendere Aufgaben.

Schaut man sich nach Anwendungsbereichen für den Einsatz von NPUs um, so beschränkt sich dies weitestgehend noch auf Filter in Videokonferenzen oder einige wenige Effekte in der Bild- und Videobearbeitung.

Die Effizienz der NPU will Qualcomm durch verschiedene Maßnahmen auf gesteigert haben. Eine möglichst schnelle Anbindung an das Speicher-Subsystems des SoCs ist eine der wichtigsten. Aber auch die Fähigkeit der Skalar- und Vektor-Einheiten mit unterschiedlichen Genauigkeiten rechnen zu können, ist vorhanden. Neben FP16 sieht Qualcomm hier auch A8W4, A8W8 und A16W8 vor. Dabei handelt es sich um Datentypen mit einer Genauigkeit von 4, 8 oder 16 Bit.

Ergänzt wird dies mit Multiple PTQ (Post-Training Quantization) und QAT (Quantization-Aware Training), welche die Genauigkeit trotz des reduzierten Datenformats hochhalten sollen. Entwickler können ihre Berechnungen per HMX (Hexagon Matrix Extensions) und HVX (Hexagon Vector Extensions) dahingehend optimieren, dass die Recheneinheiten in einem Tensor-Prozessor per Micro-Tiling aufgeteilt werden können und damit gleichzeitig mehrere Berechnungen ausführen.

Die Hexagon NPU ist in der Lage, gleichzeitig sechs Threads auszuführen. Die dazugehören Daten liegen bestenfalls im L1- und L2-Cache der NPU, falls notwendig kann aber auch der angebundene LPDDR-Speicher verwendet werden. Dies sollte aber vermieden werden, da es hier zu zusätzlichen Latenzen kommt.

Laut Qualcomm ist die NPU des Snapdragon X Elite X1E-80-100 im Procyon-AI-Benchmark fast doppelt so schnell wie ein M3 in einem MacBook Pro. Ein Intel Core Ultra 7 155H wird deutlich abgehängt. Zugleich soll der SoC von Qualcomm dabei nur 7,6 W verbrauchen, während der M3 bei 9,7 W liegt und Intels Core-Ultra-Prozessor sogar auf 11 W kommen soll.

Natürlich kann Qualcomm für alle bisherigen Benchmarks nur Vergleichshardware verwenden, die zur Verfügung steht. Verglichen wird mit Intels Meteor Lake, AMDs Ryzen 7000 und Apples M3. Wenn die Notebooks verfügbar sind, werden kurz darauf aber die jeweiligen Nachfolger erscheinen.

Auf dem Papier lesen sich die technischen Daten und von Qualcomm präsentierten Leistungswerte gut bis ausgezeichnet. Zwar erlaubte man einigen Pressevertretern bereits einige Benchmarks auszuführen, die Referenzsysteme wurden aber in einer von Qualcomm definierten Umgebung zur Verfügung gestellt und nur die vom Hersteller ausgewählten Benchmarks durften ausgeführt werden. Von unabhängigen Werten kann hier also noch nicht die Rede sein.

Ab wann die ersten Notebooks mit Snapdragon Elite oder Plus am Markt verfügbar sein werden, ist aktuell nicht bekannt. Aktuell gibt es zudem das Gerücht, dass es vor Verkaufsstart keinerlei Tests geben wird – allenfalls gleichzeitig. Wer also direkt zuschlagen möchte, tut dies sozusagen blind und ohne Kenntnis unabhängiger Tests.

Nach Jahren der Vorbereitung und monatelanger Vorschauphase wird es nun endlich Zeit, dass Qualcomm die Katze aus dem Sack lässt. Der Anteil der NPU wird für viele zunächst einmal sicherlich eine untergeordnete Rolle spielen.