Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NVIDIA: FP64-Berechnungen bleiben ein wichtiger Faktor
Auch wenn es für den Endkunden weniger eine Rolle spielt, so sind gerade im wissenschaftlichen Umfeld FP64-Berechnungen ein wichtiger Faktor, um Berechnungen mit einer möglichst hohen Genauigkeit durchzuführen. Demnach ist die FP64-Rechenleistung der GPU-Beschleuniger für einen kleinen Teil der Anwender von besonderer Bedeutung. ... weiterlesen
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Es ist ja nicht so, daß Ingenieurwesen da einer anderen Meinung ist als die Wissenschaft
Leider wurde Nvidia dabei auch noch sozusagen auf dem falschen Fuß erwischt. Sie haben schon eine Weile an der Emu mit Ozaki Scheme I gearbeitet, als das Team um Ozaki mit Scheme II ankam Kann man ebenfalls mit Matrix Multi machen, aber der Ansatz ist grundlegend anders (slicing vs. chinese remainder theorem). Chinesischer Restsatz also.
NV hat in Cuda 13, Scheme I implementiert. IMHO erst Scheme II liefert aber zu FP64 annehmbar vergleichbare Ergebnisse (Rundungsfehler). Nvidia spricht davon es auch mal implementieren zu wollen
AMD teilt bisher auf. Ist der erwartete/geplante Schwerpunkt FP64 oder KI? Ergo 430X oder 450X? Es ist ja nicht so, daß wenn man größtenteils in FP64 ballern will, 430X dafür eine dürftige Wahl wäre. HPC selbst interessiert sich für Cuda eher peripher... Macht man auch mit "Herder" nun.
Von AMD hat ja nur der 300A in die Tabelle geschafft... 355X macht 78.6 FP64 Tflop/s. Zu 430X gibt es noch keine offiziellen Angaben, aber hier versucht das der Cozma in einem Indizienprozess auszurechnen
Da kommt schon ORDENTLICH was bei raus
Riken, dem das alles entstammt, ist von Scheme II jedenfalls für mind. viele Teilaufgaben überzeugt.
Datenschutzhinweis für Youtube
An dieser Stelle möchten wir Ihnen ein Youtube-Video zeigen. Ihre Daten zu schützen, liegt uns aber am Herzen: Youtube setzt durch das Einbinden und Abspielen Cookies auf ihrem Rechner, mit welchen sie eventuell getracked werden können. Wenn Sie dies zulassen möchten, klicken Sie einfach auf den Play-Button. Das Video wird anschließend geladen und danach abgespielt.
Die FP16 Leistung gibt's nur mit den Tensorcores und setzt schonmal eine vorkompilierte Tensorrt Engine vorraus.
In "frei verfügbar" hat eine A100 bspw. ~70TFlops was ~ 1/4 der ~300TFlops Tensorcoreleistung ist. Die 600 TFlops gibt's nur mit "sparsity" und Tensorrt Engine, wobei niemand weiß, ab welchem Grad an spärlich besetzter Matrix dieser "Boost" nun gilt.
Bei FP32 gibt man aber die Werte ohne Tensor an.
Ohne Kommentar oder irgendwas.
Das war nicht die Frage Falls Luxx die gleiche ähh... kolportierte Tabelle wie HPCwire übernahm, dann halt...
Letztendlich ist der Kontext aber FP64. Wer sich da was bei den sonstigen Werte herbeifantasiert isz zweitrangig. Ändert halt aber auch nichts daran, daß du wohl Recht hast