1. Hardwareluxx
  2. >
  3. News
  4. >
  5. Hardware
  6. >
  7. Grafikkarten
  8. >
  9. A100 PCIe: NVIDIA GA100-GPU kommt auch als PCI-Express-Variante

A100 PCIe: NVIDIA GA100-GPU kommt auch als PCI-Express-Variante

Veröffentlicht am: von

a100-pcieMitte Mai stellte NVIDIA mit dem A100 den ersten GPU-Beschleuniger auf Basis der Ampere-Architektur vor. Die hier verwendete GA100-GPU ist mit 826 mm² und 54 Milliarden Transistoren die größte, die bisher in 7 nm gefertigt wurde. NVIDIA stößt damit gemeinsam mit dem Auftragsfertiger TSMC an die Grenzen des aktuell technisch möglichen.

Bisher aber gibt es den A100-Beschleuniger nur in Form der SXM4-Module. Heute kündigt NVIDIA an, die GA100-GPU in Form der A100-PCIe-Karte auch über diesen Weg vertreiben zu wollen. Auf der PCI-Express-Karte kommt die gleich GA100-GPU in der gleichen Ausbaustufe zum Einsatz. Wir sprechen also von 6.912 Shadereinheiten und 432 der neuen Tensor Cores der dritten Generation. Die 40 GB an HBM2 sind über ein 5.120 Bit breites Speicherinterface angebunden. NVIDIA unterscheidet in dieser Hinsicht also nicht zwischen der PCIe- und der SXM4-Variante.

Die A100 PCIe ist der erste GPU-Beschleuniger von NVIDIA, der PCI-Express 4.0 unterstützt. Bei 16 verwendeten Lanes verdoppelt sich die zur Verfügung stehende Bandbreite von rund 15,8 auf 31,5 GB/s. Die höhere Bandbreite ist im Datacenter von besonderer Bedeutung und auch einer der Gründe, warum NVIDIA in größeren Nodes auf den eigenen NVLink setzt. Zugleich deutet die Verwendung von PCI-Express 4.0 bei der A100 PCIe daraufhin, dass auch die GeForce-Ableger der Ampere-Architektur auf den schnelleren Standard setzen werden.

NVIDIA gibt für die A100 PCIe auch die Rechenleistung an, die identisch zur SXM4-Variante ist. Allerdings ist diese für eine Thermal Design Power von 400 W freigegeben, während die PCIe-Variante sich nur 250 W genehmigen kann. NVIDIA begründet die Angaben zur identischen Leistungsaufnahme mit einer identischen Peak-Rechenleistung. Unter Dauerlast soll die Rechenleistung in etwa 10 % niedriger sein – so NVIDIA. Wir halten diese Angaben aber für deutlich zu hoch gegriffen. Eine von 400 auf 250 W reduzierte TDP dürfte einen größeren Einfluss auf die Reduzierung der Rechenleistung haben, wenngleich sich die GA100-GPU bei 250 W im effektiveren Betriebsfenster befinden sollte.

Gegenüberstellung der Architekturen
  A100 PCIe V100S PCIe Quadro RTX 8000
GPU GA100 GV100 TU102
SMs 108 80 72
FP64-Kerne / SM 32 32 2
FP64-Kerne / GPU 3.456 2.560 144
FP32-Kerne / SM 64  64  
FP32-Kerne / GPU 6.912  5.120  
Tensor-Kerne / SM 4 8 8
Tensor-Kerne / GPU 432

640

576
FP64-Rechenleistung 9,7 TFLOPS 8,2 TFLOPS 510 GFLOPS
FP64-Rechenleistung Tensor Core 19,5 TFLOPS - -
FP32-Rechenleistung 19,5 TFLOPS 16,4 TFLOPS 16,3 TFLOPS
TF32-Rechenleistung 156 / 312 TFLOPS - -
FP16-Rechenleistung 78 TFLOPS 32,8 TFLOPS 32,6 TFLOPS
FP16-Rechenleistung Tensor Core 312 / 624 TFLOPS - -
BFLOAT16-Rechenleistung 39 TFLOPS - -
BFLOAT16-Rechenleistung Tensor Core 312 / 624 TFLOPS - -
INT8-Rechenleistung 624 / 1.248 TOPS 130 TOPS 261 TOPS
INT4-Rechenleistung 1.248 / 2.496 TOPS 260 TOPS 522 TOPS
Speicher 40 GB HBM2
5.120 Bit
1.536 GB/s
32 GB HBM2
4.096 Bit
1.134 GB/s
48 GB GDDR6
384 Bit
672 GB/s
TDP 250 W 250 W 280 W
PCIe 4.0 3.0 3.0

Noch einmal sei angemerkt, dass die von NVIDIA angegebenen Leistungswerte der A100 PCIe sich auf Peak-Werte des GA100-Ausbaus beziehen.

Im Vergleich zum Vorgänger, der Tesla V100, spricht NVIDIA von einer um den Faktor 20 höheren Leistung. Dies führte man so auch für die SXM-Variante Volta vs. Ampere an. In wie weit dies auch Gültigkeit für den Vergleich der PCI-Express-Varianten hat, steht auf einem anderen Blatt.

Die FP32- und FP64-Recheneinheiten steuern die Rechenleistung für hochpräzise Fließkommaberechnungen bei. In den weniger genauen Bereichen aber kommen die Tensor Cores der dritten Generation ins Spiel. Erwartungsgemäß baut NVIDIA die Tensor Cores in ihrer Funktionsweise weiter aus und lässt diese neben INT16 und FP16 als Datensätze mit der bisher höchsten Genauigkeit nun auch FP32- und FP64-Berechnungen durchführen. Damit helfen die Tensor Cores nicht nur die Rechenleistung im AI-Bereich deutlich zu verbessern, sondern unterstützen die Shader nun auch im HPC-Segment, wo höhere Genauigkeit gefordert sind. NVIDIA spricht von einer um den Faktor 20 höheren AI-Rechenleistung für FP32-Berechnungen.

Zusammen mit den Tensor Cores der dritten Generation führt NVIDIA ein neues Gleitkommaformat ein. TF32 oder Tensor Float 32 soll den Wertebereich von FP32 aufweisen, dabei aber nur die Genauigkeit von FP16 verwenden. NVIDIA kombiniert hier also die Vorteile aus FP32 und FP16 und passt diese den Bedürfnissen in bestimmten Bereichen an.

Eine Optimierung in der Nutzung der Tensor Cores bzw. der zur Verfügung stehenden Matrix-Multiplikationen macht die entsprechenden Berechnungen noch effektiver – Sparsity/Sparse Matrix oder die dünnbesetzte/schwachbesetzte Matrix. Besteht eine Matrix aus sehr vielen mit Nullen besetzten Einträgen, können über verschiedene Techniken diese Bereiche in der Berechnung und Speicherung effizienter genutzt werden. Bei aktivierter Structural Sparsity verdoppelt sich die Rechenleistung daher theoretisch (siehe die Angaben in der Tabelle).

Auch die A100 PCIe verfügt über den schnellen NVLink-Interconnect. In der PCI-Express-Variante können aber nur zwei dieser Karten zusammengeschaltet werden, während es in der SXM4-Variante bis zu acht sind. Per NVSwitch verbunden werden können alle acht dieser GPUs. Bei der PCI-Express-Karte sollen die beiden GPUs per NVLink mit 600 GB/s über 12 NVLinks zu je 50 GB/s verbunden sein. Dazu stehen drei NVLink-Schnittstellen an der Oberseite der Karte zur Verfügung.

Bei einer TDP von 250 W ist eine zusätzliche Stromversorgung erforderlich. Die Bilder der Karte zeigen diese nicht, 2x 8-Pin oder 1x 8-Pin + 1x 6-Pin dürften aber vorhanden sein. Zudem verfügt die Karte nicht über einen eigenen Lüfter – wird also über den im Server vorhandenen Luftstrom gekühlt. Display-Ausgänge sind an der A100-PCIe nicht vorhanden.

Multi Instance GPU ist mit dabei

Die A100 PCIe unterstützt genau wie die SXM4-Variante das Multi Instance GPU (MIG). MIG ermöglicht es die zur Verfügung stehenden Ressourcen in sieben unabhängige Instanzen zu verwandeln. Aus der GA100-GPU werden sozusagen sieben eigenständige, kleinere GPUs. Diesen sieben virtuelle GPUs können eigenen Ressourcen in Form von Speicherbandbreite, Caches, etc. zugeteilt werden. Letztendlich ist eine GA100-GPU in der Lage sieben Tesla T4 zu ersetzen. 

Die MIG-Technik ist laut NVIDIA einer der Schlüssel, um aus einer aufgrund der Größe und Komplexität recht unflexiblen GPU eine solche für ein Elastic Datacenter zu machen, in dem sie für die verschiedensten Anwendungsbereiche genutzt werden kann. Die bisherige Technologie namens Virtual GPU (vGPU) benötigte mehrere Software-Ebenen (Hypervisor und die Virtualisierungssoftware), um einen ähnlichen Effekt zu erzielen. MIG virtualisiert die GPU aber schon deutlich näher zur Hardwareebene und macht diese Funktion daher deutlich effektiver – durch die fehlenden Abstraktionsschichten weniger verlustbehaftet.

Wir wollen noch einmal ein paar Worte zur Rechenleistung der A100 PCIe verlieren. Laut Angaben von NVIDIA sind diese im Peak-Bereich identisch zur SXM4-Variante, auf Dauer aber etwa 10 % niedriger. Allerdings haben auch die verwendeten Daten bzw. deren Größe einen Einfluss. Der A100 PCIe stehen 40 GB an HBM2 zur Verfügung. Zwei Karten können somit auf einen insgesamt 80 GB großen Speicher zurückgreifen. Für Deep-Learning-Netzwerke und anderen Anwendungen die weitaus mehr Platz belegen, spricht NVIDIA von einer um 50 % reduzierten Rechenleistung. Vier A100 PCIe (jeweils zwei per NVLink miteinander verbunden) haben also bei weitem nicht die Leistung eines DGX-Systems mit vier A100 SXM4-GPUs.

NVIDIA nennt keinen Preis der A100 PCIe. Die Tesla V100 mit 16 GB HBM2 kostet allerdings bereits 7.990 Euro und die Variante mit 32 GB fast 10.000 Euro. Die A100 PCIe wird vorerst nur über OEMs und ODMs verfügbar sein.

Zur Ampere-Architektur haben wir bereits einige Berichte online gebracht:

Welche ist die beste Grafikkarte (GPU)?

Unsere Kaufberatung zu den aktuellen NVIDIA- und AMD-Grafikkarten hilft dabei, die Übersicht nicht zu verlieren. Dort zeigen wir, welche Grafikkarten aktuell die beste Wahl darstellen – egal, ob es um die reine Leistungsfähigkeit oder das Preis-Leistungs-Verhältnis geht.


Social Links

Das könnte Sie auch interessieren:

  • Gigabyte GeForce RTX 2070 Super Gaming OC 8G im Test

    Logo von IMAGES/STORIES/2017/GIGABYTE-RTX2070SUPER

    Mit der Gigabyte GeForce RTX 2070 Super Gaming OC 8G wollen wir uns heute das zweite Custom-Modell der GeForce RTX 2070 Super anschauen. Anstelle von zwei Axiallüftern kommen hier gleich drei zum Einsatz und demnach wird es sicherlich interessant werden zu sehen, wie gut sie sich hinsichtlich... [mehr]

  • Powercolor Red Devil Radeon RX 5700 XT im Test

    Logo von IMAGES/STORIES/2017/POWERCOLOR-RADEONRX5700-DEVIL

    Der erste Schwung der Custom-Navi-Karten hat uns erreicht und mit der Powercolor Red Devil Radeon RX 5700 XT schauen wir uns ein Modell an, welches laut Hersteller schneller, leiser und in allen Belangen besser sein soll. Ob man diese hohen Ziele auch erfüllen kann, schauen wir uns auf den... [mehr]

  • Sapphire Nitro+ Radeon RX 5700 XT 8G im Test

    Logo von IMAGES/STORIES/2017/SAPPHIRE-NITRO-RADEONRX5700XT

    Der erste Schwung der Custom-Modelle für die Navi-Karten von AMD ist verfügbar. Aber noch längst nicht alle der wichtigsten Modelle haben wir uns angeschaut. Die Sapphire Nitro+ Radeon RX 5700 XT ist laut diverser Empfehlungen eine dieser Varianten, auf die man einen genauen Blick... [mehr]

  • Erste Custom-Navi: Sapphire Pulse Radeon RX 5700 XT im Test

    Logo von IMAGES/STORIES/2017/SAPPHIRE_PULSE_RADEON_RX5700XT_TEST-TEASER

    Mit der Radeon RX 5700 und der Radeon RX 5700 XT zwang AMD Anfang Juli seinen Konkurrenten dazu, sein bestehendes Grafikkarten-Produktportfolio mit den ersten drei Super-Modellen aufzufrischen, musste dafür jedoch noch vor dem eigentlichen Marktstart die Preise nach unten korrigieren. Nun... [mehr]

  • Günstiges Custom-Design: ASUS Dual GeForce RTX 2080 SUPER OC Evo im Test

    Logo von IMAGES/STORIES/2017/ASUS-RTX2080-DUAL

    Nachdem wir uns nun einige Custom-Modelle der Super-Varianten von GeForce RTX 2060 und GeForce RTX 2070 angeschaut haben, wird es Zeit für ein erstes Custom-GeForce-RTX-2080-Super-Modell. Dabei handelt es sich um die ASUS Dual GeForce RTX 2080 SUPER OC Evo – also keine ROG-Variante wie... [mehr]

  • Die Inno3D GeForce RTX 2070 Super Twin X2 im Test

    Logo von IMAGES/STORIES/2017/INNO3D-RTX2070-SUPER

    Der Anfang des Monats Juli war vollgepackt mit neuen Grafikkarten. AMD stellte seine Navi-Karten alias Radeon RX 5700 und Radeon RX 5700 XT vor und NVIDIA konterte die Konkurrenz bereits mit den Super-Modellen der GeForce RTX 2060 und GeForce RTX 2070. Bisher haben wir uns nur die Referenz-... [mehr]