NEWS

Xe-HPG

Intel stellt die Arc-Mobile-Serie offiziell vor

Portrait des Authors


Intel stellt die Arc-Mobile-Serie offiziell vor
4

Werbung

Nach dem Leak heute Morgen, der alle wichtigen technischen Details der Arc-Mobile-Karten enthielt, wollten wir an dieser Stelle noch die offizielle Vorstellung seitens Intel aufarbeiten. Bereits im August des vergangenen Jahres gewährte Intel einen Einblick in die Xe-HPG-Architektur, die gewisse Anleihen der Xe-HPC-Architektur aufweist, der nun etwas detaillierter ausgeführt wurde.

Die Alchemist-Serie besteht im mobilen Bereich aus zwei GPUs. Die ACM-G10-GPU kommt auf bis zu 32 Xe-Cores, 16 MB L2-Cache, verfügt über ein 256 Bit breites Speicherinterface und kann per PCI-Express 4.0 über 16 Lanes an das System angebunden werden. Die zweite GPU, ACM-G11, kommt auf maximal 8 Xe-Cores, 4 MB L2-Cache, ein 96 Bit Speicherinterface und verfügt auch nur über 8 PCI-Express-Lanes. Gefertigt werden die GPUs in 6 nm bei TSMC. Soviel zunächst einmal zu den grundsätzlichen Unterschieden in diesem Bereich.

Gegenüberstellung der ACM-G10- und ACM-G11-GPU

ACM-G11 ACM-G10
Xe-Cores 8 32
L2-Cache 4 MB 16 MB
PCIe-4.0-Lanes 8 16
Media Engines 2 2
Display Engines 4 4

Für den Aufbau der einzelnen Produkte verweisen wir auf die Meldung von heute morgen bzw. nehmen die Tabelle noch einmal zur Hand:

Gegenüberstellung der Arc-Mobile-Varianten

A350M A370MA550MA730MA770M
Xe-Cores 6 8162432
Shadereinheiten 768 1.0242.0483.0724.096
Raytracing-Einheiten 6 8162432
GPU-Takt 1.150 MHz 1.550 MHz900 MHz1.100 MHz1.650 MHz
GDDR6-Speicher 4 GB 4 GB8 GB12 GB16 GB
Speicherinterface 64 Bit 64 Bit128 Bit192 Bit256 Bit
TDP 25 - 35 W 35 - 50 W60 - 80 W80 - 120 W120 - 150 W

Die Arc A350M kommt auf sechs Xe-Cores und somit auf 768 Shadereinheiten. Der Speicherausbau liegt bei 4 GB und diese sind über 64 Bit angebunden. Die TDP von 25 bis 35 W zeigt schon recht grob, dass wir uns hier nur knapp über den integrierten Lösungen bewegen. Die A370M kommt auf einen um 33 % höheren Ausbau und etwas mehr Takt. Der Speicherausbau ist identisch. Durch den größeren Ausbau und den höheren Takt steigt die TDP auf 35 bis 50 W an.

Die Mittelklasse-Lösung A550M bietet 16 Xe-Cores und demnach 2.048 Shadereinheiten. Der Speicherausbau und die Anbindung werden verdoppelt – sprich 8 GB GDDR6 angebunden über ein 128 Bit breites Speicherinterface. Die TDP liegt bei 60 bis 80 W.

Vorläufig die schnellsten Lösungen werden die A730M und A770M sein. Die GPU-Ausbaustufen liegen bei 24 bzw. 32 Xe-Cores und somit 3.072, bzw. 4.096 Shadereinheiten. In gewisser Weise an die TDP gekoppelt, ist nicht nur die Ausbaustufe, sondern auch der Takt der GPUs, der im Falle des A770M bei 1.650 MHz liegen soll. An GDDR6-Speicher vorhanden sind 12, bzw. 16 GB, die über ein 192, bzw. 256 Bit breites Speicherinterface angebunden sind. Die TDP der A730M liegt bei 80 bis 120 W, die der A770M bei 120 bis 150 W.


Der grundsätzliche Aufbau der GPUs sieht wie folgt aus: Die Alchemist-GPUs bestehen aus Render Slices. Diese beinhalten die Xe-Cores, Raytracing-Einheiten, L1-Caches, Sampler, Geometrieeinheiten und vieles mehr. Bis zu acht Render Slices kommen in der ACM-G10-GPU zum Einsatz.

Die Render Slices wiederum bestehen aus 16 256 Bit breiten Vektoreinheiten sowie ebenfalls 16 1.024 Bit breiten Matrix Engines (XMX). Diese 32 Einheiten teilen sich 192 kB an L1-Cache und SLM (Shared Local Memory).


Die einzelnen Vektoreinheiten haben jeweils einen eigenen Ausführungsport für Fließkommaberechnungen und teilen sich einen zweiten für Integer- und EM-Berechnungen. Die Vektoreinheit ist in der Lage 16 FP32-Berechnungen pro Taktzyklus durchzuführen. Für FP16 verdoppelt sich der Durchsatz auf 32 und eine weitere Verdopplung auf 64 OPS pro Taktzyklus ist auf INT8 möglich.

Die weiteren 16 Matrix Engines haben ebenfalls einen dedizierten Ausführungsport und können somit unabhängig von den Vektoreinheiten mit Berechnungen gefüttert werden. Die XMX-Einheiten sind in der Lage 128 FP16- oder BF16-Rechenoperationen pro Takttzyklus auszuführen. Der Durchsatz verdoppelt sich auf 256 für INT8-Berechnungen und 512 für INT4- bzw. INT2-Operationen.

Laut Intel können die Vektoreinheiten über zwei Pipelines und ein optimiertes Thread Controlling sehr effizient genutzt werden. Fließkomma-, Integer- und XMX-Berechnungen können gleichzeitig ausgeführt werden.


Die Media Engine der Alchemist-GPUs beherrscht die Codecs VP9, AVC, HEVC und AV1. Ein Decoding ist mit bis zu 8K@60 in 12 Bit HDR möglich. Für das Encoding soll ein 8K@60 10 Bit HDR erreicht worden sein.

Die Xe-Cores und die Media Engine füttern das dritte wichtige Standbein einer GPU: Die Display Engine. Die Alchemist-GPUs können zwei Display-Signale in 8K@60 HDR ausgeben, möglich sind aber auch 4x 4K@120 HDR oder 1080/1440p mit 360 Hz. An Display-Ausgängen unterstützt werden HDMI 2.0b und DisplayPort 1.4a/2.0. Ein HDMI 2.1 unterstützt die GPUs offenbar nicht und so wird dies dann wohl auch bei den Desktop-Modellen sein.

Bereits in der Tabelle der einzelnen GPUs fällt auf: Die Spanne bei den GPU-Taktraten ist mit 900 bis 1.650 MHz reicht weit, was für mobile GPUs aber auch nicht weiter ungewöhnlich ist. Intel bewegt sich für die einzelnen Ausführungen der Alchemist-GPUs auf der V/F-Kurve und wählt hier jeweils den Bereich aus, der von einen bestimmten Anwendungsbereich und die TDP-Grenzen am besten passt. Dementsprechend kommt eine A550M auch mal nur auf 900 MHz, während eine A770M mal 1.650 MHz erreichen soll.

Die Arc-Alchemist-GPUs sind zu DirectX 12 Ultimate kompatibel und unterstützen daher neben den Raytracing-Berechnungen auch VRS (Variable Rate Shading), Mesh Shading und das Sampler Feedback.

Leistungswerte

Erstmals nennt Intel auch Leistungsdaten zur den mobilen GPUs. Man beschränkt sich hier aber auf die Arc A370M

Verglichen wird mit der integrierten Grafikeinheit Iris Xe des Core i7-1280P. Die Arc A370M soll hier teilweise deutlich mehr FPS erreichen und ein flüssiges 1080p-Gaming ermöglichen. Leider liefert Intel keinerlei Benchmarks zu den übrigen Modelle wie der Mittelklasse-Lösung A550M oder den schnelleren A730M/A770M-Varianten.

Bereits seit einiger Zeit spricht Intel über eine weitere Funktion der Arc-GPUs. Diese können mit dem Prozessor bzw. der intergrierten GPU des Prozessors zusammenarbeiten. Intel verspricht sich eine um 30 % höhere Leistung, da ein gemeinsames Power-Budget zwischen den beiden Chips ausgetauscht werden kann. Eine solche Funktion gibt es auch bei NVIDIA (im Zusammenspiel mit Intel-Prozessoren) sowie bei AMD, wenn dort beide Chips aus einem Haus stammen.

Beim Encoding geht Intel davon aus, dass sogar eine um 60 % höhere Leistung erreicht werden kann, wenn sich iGPU und Alchemist-GPU mit ihren Encoder-Engines auf ein gemeinsames Projekt werfen. Zusammen mit den XMX-Engines soll ein Leistungsplus von 24 % für allgemein rechenintensive Anwendungen erreicht werden.

Ab sofort erhältlich

Die ersten Notebooks mit Intel Arc-3-GPU sind ab sofort erhältlich. Eines dieser Modelle ist das Samsung Galaxy Book 2 Pro.

Aber auch von anderen Herstellern sollen in Kürze die ersten Notebooks in den Handel kommen. Wann mit Varianten der Arc-5- und Arc-7-Serie zu rechnen ist, ist nicht konkret bekannt. Intel hier nur vom Frühsommer für die weiteren Modelle.