NVIDIA: FP64-Berechnungen bleiben ein wichtiger Faktor

HWL News Bot · Gestern um 08:07

Auch wenn es für den Endkunden weniger eine Rolle spielt, so sind gerade im wissenschaftlichen Umfeld FP64-Berechnungen ein wichtiger Faktor, um Berechnungen mit einer möglichst hohen Genauigkeit durchzuführen. Demnach ist die FP64-Rechenleistung der GPU-Beschleuniger für einen kleinen Teil der Anwender von besonderer Bedeutung.
... weiterlesen

Zeitmangel · Gestern um 09:07

Ah guck...

https://www.hpcwire.com/2025/12/09/nvidia-says-its-not-abandoning-64-bit-computing/

Es ist ja nicht so, daß Ingenieurwesen da einer anderen Meinung ist als die Wissenschaft

Leider wurde Nvidia dabei auch noch sozusagen auf dem falschen Fuß erwischt. Sie haben schon eine Weile an der Emu mit Ozaki Scheme I gearbeitet, als das Team um Ozaki mit Scheme II ankam

Kann man ebenfalls mit Matrix Multi machen, aber der Ansatz ist grundlegend anders (slicing vs. chinese remainder theorem). Chinesischer Restsatz also.

NV hat in Cuda 13, Scheme I implementiert. IMHO erst Scheme II liefert aber zu FP64 annehmbar vergleichbare Ergebnisse (Rundungsfehler). Nvidia spricht davon es auch mal implementieren zu wollen

AMD teilt bisher auf. Ist der erwartete/geplante Schwerpunkt FP64 oder KI? Ergo 430X oder 450X? Es ist ja nicht so, daß wenn man größtenteils in FP64 ballern will, 430X dafür eine dürftige Wahl wäre. HPC selbst interessiert sich für Cuda eher peripher... Macht man auch mit "Herder" nun.
Von AMD hat ja nur der 300A in die Tabelle geschafft... 355X macht 78.6 FP64 Tflop/s. Zu 430X gibt es noch keine offiziellen Angaben, aber hier versucht das der Cozma in einem Indizienprozess auszurechnen

Da kommt schon ORDENTLICH was bei raus

grob 211 FP64 Tflop/s ?!

https://chipsandcheese.com/p/sc25-estimating-amds-upcoming-mi430xs

Riken, dem das alles entstammt, ist von Scheme II jedenfalls für mind. viele Teilaufgaben überzeugt.

Sir Diablo · Gestern um 19:24

Die Tabelle stimmt so hinten und vorne nicht.

Die Werte für FP16 habt ihr entweder mit BF16 oder der Tensorrt Leistung verwechselt.

Zeitmangel · Gestern um 19:27

Sir Diablo schrieb:
Die Tabelle stimmt so hinten und vorne nicht.

Ist die auf HPCwire anders?

Sir Diablo · Gestern um 19:59

Die FP16 Leistung gibt's nur mit den Tensorcores und setzt schonmal eine vorkompilierte Tensorrt Engine vorraus.
In "frei verfügbar" hat eine A100 bspw. ~70TFlops was ~ 1/4 der ~300TFlops Tensorcoreleistung ist. Die 600 TFlops gibt's nur mit "sparsity" und Tensorrt Engine, wobei niemand weiß, ab welchem Grad an spärlich besetzter Matrix dieser "Boost" nun gilt.

Bei FP32 gibt man aber die Werte ohne Tensor an.
Ohne Kommentar oder irgendwas.

Ist doch hinten und vorne nicht vergleichbar.

Zeitmangel · Gestern um 21:40

Das war nicht die Frage

Falls Luxx die gleiche ähh... kolportierte Tabelle wie HPCwire übernahm, dann halt...

Letztendlich ist der Kontext aber FP64. Wer sich da was bei den sonstigen Werte herbeifantasiert isz zweitrangig. Ändert halt aber auch nichts daran, daß du wohl Recht hast

Suche

NVIDIA: FP64-Berechnungen bleiben ein wichtiger Faktor

HWL News Bot

News

Zeitmangel

Enthusiast

Datenschutzhinweis für Youtube

Sir Diablo

Enthusiast

Zeitmangel

Enthusiast

Sir Diablo

Enthusiast

Zeitmangel

Enthusiast

Ähnliche Themen