NVIDIA: FP64-Berechnungen bleiben ein wichtiger Faktor

Thread Starter
Mitglied seit
06.03.2017
Beiträge
114.298
Auch wenn es für den Endkunden weniger eine Rolle spielt, so sind gerade im wissenschaftlichen Umfeld FP64-Berechnungen ein wichtiger Faktor, um Berechnungen mit einer möglichst hohen Genauigkeit durchzuführen. Demnach ist die FP64-Rechenleistung der GPU-Beschleuniger für einen kleinen Teil der Anwender von besonderer Bedeutung.
... weiterlesen
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Ah guck... :whistle:

Es ist ja nicht so, daß Ingenieurwesen da einer anderen Meinung ist als die Wissenschaft :censored:
Leider wurde Nvidia dabei auch noch sozusagen auf dem falschen Fuß erwischt. Sie haben schon eine Weile an der Emu mit Ozaki Scheme I gearbeitet, als das Team um Ozaki mit Scheme II ankam :sneaky: Kann man ebenfalls mit Matrix Multi machen, aber der Ansatz ist grundlegend anders (slicing vs. chinese remainder theorem). Chinesischer Restsatz also.

NV hat in Cuda 13, Scheme I implementiert. IMHO erst Scheme II liefert aber zu FP64 annehmbar vergleichbare Ergebnisse (Rundungsfehler). Nvidia spricht davon es auch mal implementieren zu wollen :sneaky:

AMD teilt bisher auf. Ist der erwartete/geplante Schwerpunkt FP64 oder KI? Ergo 430X oder 450X? Es ist ja nicht so, daß wenn man größtenteils in FP64 ballern will, 430X dafür eine dürftige Wahl wäre. HPC selbst interessiert sich für Cuda eher peripher... Macht man auch mit "Herder" nun.
Von AMD hat ja nur der 300A in die Tabelle geschafft... 355X macht 78.6 FP64 Tflop/s. Zu 430X gibt es noch keine offiziellen Angaben, aber hier versucht das der Cozma in einem Indizienprozess auszurechnen :geek:
Da kommt schon ORDENTLICH was bei raus
grob 211 FP64 Tflop/s ?! :oops:
https://chipsandcheese.com/p/sc25-estimating-amds-upcoming-mi430xs

Riken, dem das alles entstammt, ist von Scheme II jedenfalls für mind. viele Teilaufgaben überzeugt.

 
Zuletzt bearbeitet:
Die Tabelle stimmt so hinten und vorne nicht.

Die Werte für FP16 habt ihr entweder mit BF16 oder der Tensorrt Leistung verwechselt.
 
Die FP16 Leistung gibt's nur mit den Tensorcores und setzt schonmal eine vorkompilierte Tensorrt Engine vorraus.
In "frei verfügbar" hat eine A100 bspw. ~70TFlops was ~ 1/4 der ~300TFlops Tensorcoreleistung ist. Die 600 TFlops gibt's nur mit "sparsity" und Tensorrt Engine, wobei niemand weiß, ab welchem Grad an spärlich besetzter Matrix dieser "Boost" nun gilt.

Bei FP32 gibt man aber die Werte ohne Tensor an.
Ohne Kommentar oder irgendwas.

Ist doch hinten und vorne nicht vergleichbar.
 
Zuletzt bearbeitet:
Das war nicht die Frage :rolleyes2: Falls Luxx die gleiche ähh... kolportierte Tabelle wie HPCwire übernahm, dann halt...:sneaky:

Letztendlich ist der Kontext aber FP64. Wer sich da was bei den sonstigen Werten herbeifantasiert hat ist für die News zweitrangig. Ändert aber auch nichts daran, daß du wohl Recht hast (y)
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh