ARM hat mit der Lumex CSS-Plattform seine neue Referenzplattform mit neuen CPU-Kernen, neuen KI-Einheiten namens SME2 sowie einer neuen GPU-Architektur vorgestellt. Diese soll vor allem in mobilen Geräten wie Smartphones und Tablets zum Einsatz kommen.

Das neue C1-CPU-Cluster besitzt Kerne, die auf die neue Armv9.3-Architektur setzen. Neben den Hochleistungskernen C1-Ultra kombiniert ARM im Cluster auch die C1-Premium-, C1-Pro- und C1-Nano-Kerne. Bereits aus der Namensgebung wird ersichtlich, an welchen Anwendungsbereich sich die verschiedenen Kerne richten. Die C1-Ultra-Kerne sind auf die höchstmögliche Leistung ausgelegt, sollen aber in einem gewissen Power-Budget auch längerfristig eine höhere Leistung beibehalten können. Gegenüber den Cortex-X925-Kernen sollen die neuen Varianten eine um 25 % höhere Single-Threaded-Leistung aufweisen können. Die IPC-Leistung soll im zweistelligen Prozentbereich liegen. Die etwas abgespeckten C1-Premium-Kerne haben eine um 35 % geringere Chipfläche und dennoch einen privaten L2-Cache.

Die C1-Pro-Kerne sind auf längere Workloads bei zugleich hoher Effizienz ausgelegt. Sie sollen um 16 % schneller als die Cortex-A725-Kerne sein. Zugleich sind sie um 12 % effizienter. Mit den C1-Nano-Kernen adressiert ARM die sparsamen Hintergrundaufgaben. Die C1-Nano-Kerne sollen um 26 % effizienter als die Cortex-A520-Varianten sein.

Im CPU-Cluster integriert sind die Maxtrix-Erweiterungen SME2. Diese sollen vor allem KI-Anwendungen wie die Ausführung von LLMs und die Bild- und Videobearbeitung beschleunigen. Eingeführt wurden die Scalable Matrix Extension (SME) erstmals im Frühjahr 2024, mit SME2 gibt es die ersten Anpassungen auf die neuesten KI-Frameworks.

Google unterstützt SME2 in ersten Apps über die LiteRT-Schnittstelle bereits. Besonders eben angesprochene Video-, Foto- und Audio-Anwendungen mit KI-Funktionen nutzen die Beschleunigung per SME2 zum Start. ARM spricht von deutlich geringeren Latenzen in der Audio-to-Text-Erkennung Wisper, einer um den Faktor 4,7 höheren KI-Leistung für Google Gemma 3 sowie von einer um den Faktor 2,8 schnelleren Audio-Generierung mittels Stability AI Stable Audio.

Die neuen Kerne besitzen allesamt ein optimiertes Front- und Backend. Eine DynamIQ Shared Unit (DSU) kann bis zu 14 Kerne unterschiedlicher Gestaltung verwalten. In der C1-DSU möglich ist beispielsweise die Integration von bis zu 32 MB L3-Cache. Zudem gibt es einen neuen System Interconnect L1 (SI L1) und die neue Memory Management Unit L1 (MMU L1). Die Chipdesigner können für die C1-Kerne, die DSU sowie die weiteren Einheiten verschiedene Konfigurationen wählen. Vorgesehen ist der Einsatz von LPDDR5X, allerdings ist der Speichercontroller auch schon auf LPDDR6 vorbereitet.

Noch in diesem Quartal sollen die ersten SoCs auf Basis der Lumex CSS Platform mit C1-CPU-Cluster vorgestellt werden. Konkrete Modelle oder Partner nennt ARM nicht.

Neue Mali G1-Ultra GPU

Zusammen mit den neuen CPU-Kernen vorgestellt wird auch die neue GPU namens Mali G1-Ultra. Diese besitzt unter anderem die neuen Ray Tracing Units (RTUv2), aber auch die restliche Rendering-Pipeline wurde überarbeitet.

Gegenüber dem Vorgänger Immortalis-G925 soll die neue Mali G1-Ultra GPU eine um den Faktor zwei höhere Raytracing-Leistung besitzen. In der klassischen Rendering-Leistung soll die Steigerung 20 % betragen. Einerseits ist dafür der neue FP16 Matrix-Compute-Pfad verantwortlich, die auch die Machine-Learning-Leistung um 20 % steigen lässt. Aber auch die Effizienz soll gesteigert worden sein. ARM spricht von 9 % weniger Energie je Frame.

In Spielen wie Genshin Impact oder Fortnite soll die neue GPU zwischen 11 und 17 % mehr FPS darstellen können. Spiele und anderen Anwendungen, welche Raytracing-Effekte nutzen, sollen um 40 % mehr FPS darstellen können.

Zudem kann die GPU natürlich auch für KI-Anwendungen genutzt werden. Unter Verwendung der verbesserten FP16-Einheiten soll hier eine Leistungssteigerung von bis zu 104 % möglich sein.