NEWS

NVIDIA

FP64-Berechnungen bleiben ein wichtiger Faktor

Portrait des Authors


FP64-Berechnungen bleiben ein wichtiger Faktor
6

Werbung

Auch wenn es für den Endkunden weniger eine Rolle spielt, so sind gerade im wissenschaftlichen Umfeld FP64-Berechnungen ein wichtiger Faktor, um Berechnungen mit einer möglichst hohen Genauigkeit durchzuführen. Demnach ist die FP64-Rechenleistung der GPU-Beschleuniger für einen kleinen Teil der Anwender von besonderer Bedeutung.

Dabei ist aber in den vergangenen Jahren eine klare Tendenz erkennbar: NVIDIA hat die FP64-Rechenleistung in seinen GPUs und Rechenbeschleunigern deutlich zurückgefahren. Während hohe und niedrige Genauigkeiten in der Ampere- und Hopper-Generation sich noch die Waage gehalten haben, reduzierte NVIDIA die Anzahl der entsprechenden Recheneinheiten mit der Blackwell-Generation deutlich.

Gegenüberstellung der FP64-Rechenleistung

NVIDIA A100 NVIDIA H100NVIDIA H200NVIDIA B100NVIDIA B200NVIDIA B300AMD Instinct MI300A
Architektur Ampere HopperHopperBlackwellBlackwellBlackwell UltraCDNA 3
FP64-Rechenleistung 9,7 TFLOPS 34 TFLOPS34 TFLOPS30 TFLOPS37 TFLOPS1,2 TFLOPS61,3 TFLOPS
FP32-Rechenleistung 19,5 TFLOPS 67 TFLOPS67 TFLOPS60 TFLOPS75 TFLOPS75 TFLOPS122,6 TFLOPS
FP16-Rechenleistung 624 TFLOPS 1.979 TFLOPS1.979 TFLOPS3.500 TFLOPS4.500 TFLOPS4.500 TFLOPS1.960 TFLOPS
FP8-Rechenleistung - 3.958 TFOPS3.958 TFLOPS7.000 TFLOPS9.000 TFLOPS9.000 TFLOPS1.960 TFLOPS
INT8-Rechenleistung 1.248 TOPS 3.958 TOPS
3.958 TOPS 7.000 TOPS9.000 TOPS307 TOPS-
FP4-Rechenleistung - --14.000 TOPS18.000 TOPS18.000 TOPS-

Von der Ampere-, über die Hopper- bis zur Blackwell-Architektur ist die Tendenz klar zu erkennen: Vor allem Blackwell Ultra reduzierte das Verhältnis aus hochpräziser und niedrig-genauer Rechenleistung noch einmal deutlich. An dieser Stelle sei aber auch erwähnt, dass gerade die Rechenleistung mit niedriger Genauigkeit nicht mehr durch die klassischen Recheneinheiten erreicht wird, sondern im Falle von NVIDIA durch die Tensor-Kerne.

Auf der anderen Seite zeigte AMD zuletzt mit dem Instinct-MI300A-Beschleuniger, dass es durchaus noch Anwendungsbereiche gibt, welche den Fokus auf FP64-Berechnungen legen. Mit dem Nachfolger Instinct MI430X fokussiert sich AMD ebenfalls auf den HPC-Markt.

In einem Interview mit HPCWire äußerte sich nun Dion Harris, Senior Director für HPC und AI Hyperscale Infrastructure Solutions bei NVIDIA nun zu dem Thema.

When we look at our platform, we think FP64 is certainly still a critical sort of requirement, if you will, because in order to create all of these incredible AI surrogates ... you need to have a ground truth, which is often based in your core based simulation, that you can then train and develop a lot of these other activities, or at least validate them against. So we recognize that FP64 is certainly core.

We’re trying to expose these capabilities to the developer environment so that they can…get the FP64 required. But I think the key thing to take away from this is that we’re not trying to optimize the chip for an HDL. Everyone agrees that that’s not valuable. You want to make sure that you can do the science, and that’s where a lot of effort [comes from] to make sure that we can enable that full work stream, from simulation to data processing to training to inference, and that whole feedback loop that occurs within the new computational science workflow.

We are definitely looking to bring some additional capabilities in our future gen architectures. We are very serious about making sure that we can deliver the required performance to power those simulation workloads, which we think will ultimately be a key driver to implementing…those AI-based approaches as well, because you need core simulation as a part of that work.

- so Dion Harris von NVIDIA

NVIDIA hat das Thema FP64-Rechenleistung im Fokus, sieht dies allerdings nicht mehr als primären Faktor und will zukünftige Technologien derart auslegen, dass diese den Anforderungen der Anwendungen entspricht. Sprich: Berechnungen mit hoher Genauigkeit bilden die Basis, es ist aber meist nicht notwendig, diese hohe Genauigkeit über den kompletten Workload fortzuführen.

Mixed Precision Supercomputing lautet das Schlagwort der Stunde. Systeme wie Hunter müssen weit mehr leisten, als nur in FP64-Berechnungen zu glänzen. Nicht alle Anwendungen verlangen nach dieser doppelten Genauigkeit – in der KI sind wir inzwischen sogar bei FP4 angekommen.

NVIDIA verzichtet bewusst auf native FP64-Einheiten, da sie auf dem Chip viel Fläche beanspruchen. Da KI-Workloads diese Präzision nicht benötigen, ersetzt man sie durch FP16- und INT16-Einheiten, was die Rechenleistung stark steigert. In Kombination mit den Tensor-Kernen erreichen die Blackwell-GPUs enorme Durchsätze bei FP8-Operationen. Mit abnehmender Genauigkeit steigt der Datendurchsatz weiter, da eine FP8-Einheit sogar zwei FP4-Berechnungen parallel ausführen kann.

Umgekehrt lässt sich höhere Genauigkeiten emulieren: Zwei FP32-Berechnungen können eine FP64-Operation übernehmen. Noch raffinierter ist die FP64-Emulation nach dem sogenannten Ozaki-Schema. Dabei werden Matrix-Matrix-Multiplikationen mit hoher Genauigkeit durch Operationen mit niedriger Präzision simuliert. Zwar erfordert dieser Ansatz deutlich mehr Rechenoperationen als eine DGEMM-Implementierung mit WMAA- oder MFMA-Instruktionen, liefert dennoch eine gewisse FP64-Leistung.

Ob sich FP64-Emulation als praktikabler Ansatz für künftige Beschleuniger und Supercomputing-Architekturen durchsetzt, bleibt abzuwarten. Für viele Anwendungen ist FP64 nicht zwingend erforderlich, doch die Wissenschaft möchte auf exakte Berechnungen noch nicht verzichten. Ein alternativer Ansatz sieht vor, dass vereinfachte, KI-gestützte Modelle Simulationen übernehmen und nur einzelne Schritte in FP64 validieren. Stimmen Modell und Überprüfung überein, wird die Simulation mit geringerer Genauigkeit fortgesetzt.

Back to top