> > > > NVIDIAs Titan V soll sich häufiger verrechnen

NVIDIAs Titan V soll sich häufiger verrechnen

Veröffentlicht am: von

nvidia-titanvEntwickler sind an TheRegister.co.uk herangetreten und sprechen von Rechenfehlern, die bei wissenschaftlichen Anwendungen auftreten, wenn diese von der NVIDIA Titan V ausgeführt werden. Sogenannte Glitches sind keine Seltenheit, werden durch eine Fehlererkennung meist aber abgefangen, da gerade im wissenschaftlichen Bereich das Vertrauen auf die Korrektheit der Daten entscheidend ist.

Bei der besagten Berechnung soll es sich um die Simulation der Interaktion zwischen Proteinen und Enzymen handeln. Bei mehreren Durchläufen mit gleichen Vorgaben soll es zu unterschiedlichen Ergebnissen gekommen sein. Bei etwa 10 % der Durchläufe soll es zu den Fehlern gekommen sein. Der Test selbst soll derart ausgelegt sein, dass er immer identische Ergebnisse liefern müsste.

Nun könnte es mehrere Gründe für dieses Verhalten geben. Die Hardware selbst, bzw. die Volta-Architektur wäre eine Möglichkeit, wenngleich dies der kritischste, da schwerwiegendste wäre. Ein Fehler im Treiber, Compiler oder dem Software Framework wäre eine weitere Möglichkeit. Ein Bug in diesem Bereich ließe sich zudem recht einfach beheben.

Ein weiterer Grund könnte der High Bandwidth Memory sein. Dieser läuft bei der Titan V mit einem Takt von 850 MHz und erreicht bei verwendeten 3.072 Bit Speicherinterface eine Speicherbandbreite von 652,8 GB/s. Solche Rechenfehler treten gerne auf, wenn es zu Glitches oder einem Bitflip im Speicher kommt. Ohne ECC (Error Correcting Code) können diese Fehler nicht erkannt werden und setzen sich in den Berechnungen fort. Die Titan V kommt ohne aktives ECC, die Datacenter-Varianten Tesla V100 verfügen über ECC und lassen den HBM2 mit bis zu 879 MHz arbeiten.

Es wäre also durchaus möglich, dass der HBM2 Fehler produziert, die bei den Tesla-V100-Varianten durch den ECC erkannt werden, auf der Titan V durch den fehlenden aber nicht. HBM2 verfügt über eine ECC-Unterstützung, diese ist bei den Verwendung auf Consumer-Hardware aber nicht aktiv.

Derzeit sind noch viele Fragezeichen vorhanden. So sind die genauen Gründe für die fehlerhaften Berechnungen, bzw. Varianzen unbekannt. Es gibt zahlreiche Gründe dafür und nicht in jedem Fall ist NVIDIA dafür verantwortlich. Wir haben bei NVIDIA nachgefragt, ob es weitere Erkenntnisse zu diesem Thema gibt. Spätestens auf der GPU Technologies Conference in der kommenden Woche dürfte das Thema noch einmal auf den Tisch kommen.

Social Links

Ihre Bewertung

Ø Bewertungen: 0

Tags

Kommentare (24)

#15
customavatars/avatar269623_1.gif
Registriert seit: 02.05.2017

BannedForEveR
Beiträge: 8321
Zitat Oberteufel;26229085
Vielleicht wurde die Preiskalkulation der Titan V auch mit eben dieser durchgeführt? :fresse:


Naja 10% mehr oder weniger hätte den Braten auch nicht fett gemacht. :fresse:

Mit dem zweiten Teil hast du natürlich recht, aber hier fehlt noch das offizielle Statement von NVidia, leider wie so oft ...
#16
customavatars/avatar104207_1.gif
Registriert seit: 12.12.2008
Wien
Kapitänleutnant
Beiträge: 1776
Zitat Holzmann;26229114
Mit dem zweiten Teil hast du natürlich recht, aber hier fehlt noch das offizielle Statement von NVidia, leider wie so oft ...

Du kannst doch englisch lesen, oder?
Ein paar Posts weiter oben hab ich die Aussage der Entwickler der Software zitiert, die konnten den Fehler nicht reproduzieren.

NV selbst hat auch bereits ein Statement abgegeben, nur weil du nicht bereit bist in der Quelle nachzulesen oder dir keiner hier ein Update schreibt heißt es nicht dass es kein Statement gab, aber ich poste es Dir mal direkt aus der Quelle der Meldung
Zitat
A spokesperson for Nvidia has been in touch to say people should drop the chip designer a note if they have any problems. The biz acknowledged it is aware of at least one scientific application – a molecular dynamics package called Amber – that reportedly is affected by the Titan V weirdness.
"All of our GPUs add correctly," the rep told us. "Our Tesla line, which has ECC [error-correcting code memory], is designed for these types of large scale, high performance simulations. Anyone who does experience issues should contact [email][email protected][/email]."


Was erwartet Ihr Euch von NV? Sollen sie bei jedem von Euch separat anklopfen und informieren?
Warum sich der Anwender mit seinem Problem nicht gleich direkt bei NV oder dem Entwickler der SW gemeldet hat, sondern sich zuerst direkt an Presse gewendet hat macht mich eigentlich am meisten stutzig.
Ist ähnlich wie bei den Sicherheitslücken bei AMD wo auch dem Hersteller nicht einmal zuerst die Gelegenheit gegeben wurde das Thema intern zu checken, nein, immer sofort gleich an die große Glocke hängen.
#17
customavatars/avatar269623_1.gif
Registriert seit: 02.05.2017

BannedForEveR
Beiträge: 8321
@fidel

Ok das Statement hatte ich nicht gelesen/gesehen, NV weiß also bisher nichts über Probleme.

Dennoch, bei einer GPU für 3000 Euro kann ich erwarten, dass diese auch korrekt rechnet. Wenn es von 4 Stück nur 2 tun, dann sind nicht die Wissenschaftler schuld, sondern Nvidia, welche die Karte dann falsch konzipiert haben. Wenn nur manche ohne ECC korrekte Ergebnisse liefern, dann sind die anderen schlicht defekt.
#18
customavatars/avatar104207_1.gif
Registriert seit: 12.12.2008
Wien
Kapitänleutnant
Beiträge: 1776
NV ist der Fehler vom Entwickler der SW gemeldet worden, der den Fehler selbst nicht reproduzieren und schreibt selbst dass das Problem auch mit anderen Karten auftreten kann.

Du hast keine Ahnung von welchen Berechnungen wir hier reden, geschweige denn davon wie lange hier gerechnet wird.

Nur 1 kleiner Fehler führt zu falschen Ergebnissen, warum bloß gibt es im professionellen Bereich Rechnersysteme mit ECC? Sind alles Idioten die auf teurere Hardware setzen, geht doch alles auch mit Consumer-HW auch.

Wer für solche Berechnungen HW ohne ECC einsetzt handelt fahrlässig, übrigens einer der Gründe warum ich [email protected] überhaupt nichts halte.

Ich, bzw meine Gruppe, arbeitet im Bereich ProteinEngineering und in-silico prediction und ich verstehe von diesen Berechnungen auf jeden Fall mehr wie vermutlich jeder andere Poster in diesem Thread.
#19
customavatars/avatar269623_1.gif
Registriert seit: 02.05.2017

BannedForEveR
Beiträge: 8321
Das Problem liegt auf der anderen Seite, aber niemand begreift es:

Die Titan V ist genauer als korrekt. Sie zeigt, dass gleiche Rechnungen unterschiedliche Ergebnisse haben können. Quanteneffekt. Ab einer bestimmten Genauigkeit, verändert sich das Resultat. Nur bislang waren weder Menschen noch Maschinen dazu im Stande eine solche Genauigkeit zu erreichen. In Wahrheit rechnen wir alle falsch. Bis jetzt. Klare Sache. Die Karte ist ihrer Zeit weit voraus. Der Wahnsinn. Schade, dass nun über die Titan V hergezogen wird. Aber so ist das nun mal mit Genies. ;)

Aber im Ernst, interessant wäre, ob dies auch bei den Quadros auftritt, die m.W. Forscher bislang immer für physikalische Berechnungen etc. benutzen ...
#20
customavatars/avatar95761_1.gif
Registriert seit: 27.07.2008

Fregattenkapitän
Beiträge: 3046
Da scheint sich NVIDIA mal wieder verrechnet zu haben. :haha:
Naja, die Titan V ist ja auch keine Profikarte. Sie ist mehr so eine Art Gaming-Karte die man zu Profipreisen verkauft. Also eben eine GTX Titan.
#21
Registriert seit: 01.01.1970


Beiträge:
Zitat Pickebuh;26235632
Da scheint sich NVIDIA mal wieder verrechnet zu haben. :haha:
Naja, die Titan V ist ja auch keine Profikarte. Sie ist mehr so eine Art Gaming-Karte die man zu Profipreisen verkauft. Also eben eine GTX Titan.


Bin deiner Meinung
#22
customavatars/avatar89889_1.gif
Registriert seit: 19.04.2008
PorscheTown
Vizeadmiral
Beiträge: 6892
Zitat Holzmann;26231012
In Wahrheit rechnen wir alle falsch. Bis jetzt. Klare Sache. Die Karte ist ihrer Zeit weit voraus. Der Wahnsinn. Schade, dass nun über die Titan V hergezogen wird. Aber so ist das nun mal mit Genies. ;)

Aber im Ernst, interessant wäre, ob dies auch bei den Quadros auftritt, die m.W. Forscher bislang immer für physikalische Berechnungen etc. benutzen ...

:bigok:
Genies = Geforce

Die Quadros haben ECC GDDR bzw. HBM(²)
#23
customavatars/avatar81596_1.gif
Registriert seit: 05.01.2008
Heilbronn
Korvettenkapitän
Beiträge: 2540
Die rechnet halt V mal Daumen... Ehm Pi... Ok, der kommt im Englischen vllt besser :heuldoch:
#24
customavatars/avatar89889_1.gif
Registriert seit: 19.04.2008
PorscheTown
Vizeadmiral
Beiträge: 6892
Zitat iLLuminatusANG;26236698
Die rechnet halt V mal Daumen... Ehm Pi... Ok, der kommt im Englischen vllt besser :heuldoch:

Eine frontier ist manchmal, auch nicht verkehrt: AMD Radeon Vega Frontier Edition Liquid Preisvergleich Geizhals Deutschland

Zitat
Rechenleistung: 13107GFLOPS (Single), 819GFLOPS (Double)

Im Verbund komme ich auf = 1800 GFLOPS (²)
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

NVIDIA Titan V: Volta-Architektur im Gaming-Test

Logo von IMAGES/STORIES/2017/NVIDIA-TITANV

In der letzten Woche hatte NVIDA noch eine Überraschung für uns parat: Die brandneue NVIDIA Titan V wurde vorgestellt. Damit gibt es das erste Consumer-Modell mit der neuen Volta-Architektur, das auch für Spieler interessant sein kann, in erster Linie aber auch professionelle Nutzer ansprechen... [mehr]

Sapphire Radeon RX Vega 64 Nitro+ im Test

Logo von IMAGES/STORIES/2017/SAPPHIRE-VEGA

Heute ist es endlich soweit: Wir können uns das zweite Custom-Design der Radeon RX Vega anschauen. Dabei handelt es sich um die Sapphire Radeon RX Vega 64 Nitro+, die besonders durch die Kühlung auf sich aufmerksam machen will. Drei Slots, drei Axiallüfter und sogar eine spezielle... [mehr]

Die GeForce RTX 2080 Ti und RTX 2080 Founders Edition im Test

Logo von IMAGES/STORIES/2017/GEFORCERTX2080

Heute nun ist es endlich soweit und wir präsentieren die vollständigen Leistungsdaten und Messwerte zu den beiden ersten Karten der GeForce-RTX-20-Serie von NVIDIA. Nach der Vorstellung der Pascal-Architektur im Mai 2016 sind die neuen Karten für NVIDIA in vielerlei Hinsicht ein... [mehr]

Mega-Roundup: 14 aktuelle GeForce-Grafikkarten in 11 Blockbuster-Spielen...

Logo von IMAGES/STORIES/2017/GPU_BLOCKBUSER_VGL_ZOTAC-TEASER

In Kooperation mit Zotac Auch in diesem Jahr veranstalteten die Spielepublisher wieder ein regelrechtes Feuerwerk an neuen Videospielen. Vor allem in den letzten Wochen des Jahres wurden zahlreiche neue Triple-A-Titel veröffentlicht, wie beispielsweise ein neues "Call of Duty",... [mehr]

Die ersten Custom-Modelle der GeForce GTX 1070 Ti im Test

Logo von IMAGES/STORIES/LOGOS-2017/GTX1070TI-LOGO

Nach der Vorstellung aller Details dürfen wir heute die Leistungswerte der GeForce GTX 1070 Ti veröffentlichen. Dabei stand uns dieses Mal keine Founders Edition zur Verfügung, die nur von NVIDIA verkauft wird, dafür aber einige Custom-Modelle. Diese stammen aus dem Hause ASUS, Inno3D und... [mehr]

Sechs Grafikkarten von Sapphire im Vergleich in 11 Blockbuster-Spielen

Logo von IMAGES/STORIES/2017/SAPPHIRE-2017AUFMACHER

In Kooperation mit Sapphire Nachdem der Herbst und Winter mit zahlreichen neuen Spielen samt Grafikfeuerwerk aufwarten konnte, haben wir uns bereits 14 aktuelle GeForce-Karten in 11 neuen Spielen angeschaut. Nun wollen wir die Seiten sozusagen wechseln und schauen uns an, wie diese Spiele auf... [mehr]