> > > > NVIDIAs Titan V soll sich häufiger verrechnen

NVIDIAs Titan V soll sich häufiger verrechnen

Veröffentlicht am: von

nvidia-titanvEntwickler sind an TheRegister.co.uk herangetreten und sprechen von Rechenfehlern, die bei wissenschaftlichen Anwendungen auftreten, wenn diese von der NVIDIA Titan V ausgeführt werden. Sogenannte Glitches sind keine Seltenheit, werden durch eine Fehlererkennung meist aber abgefangen, da gerade im wissenschaftlichen Bereich das Vertrauen auf die Korrektheit der Daten entscheidend ist.

Bei der besagten Berechnung soll es sich um die Simulation der Interaktion zwischen Proteinen und Enzymen handeln. Bei mehreren Durchläufen mit gleichen Vorgaben soll es zu unterschiedlichen Ergebnissen gekommen sein. Bei etwa 10 % der Durchläufe soll es zu den Fehlern gekommen sein. Der Test selbst soll derart ausgelegt sein, dass er immer identische Ergebnisse liefern müsste.

Nun könnte es mehrere Gründe für dieses Verhalten geben. Die Hardware selbst, bzw. die Volta-Architektur wäre eine Möglichkeit, wenngleich dies der kritischste, da schwerwiegendste wäre. Ein Fehler im Treiber, Compiler oder dem Software Framework wäre eine weitere Möglichkeit. Ein Bug in diesem Bereich ließe sich zudem recht einfach beheben.

Ein weiterer Grund könnte der High Bandwidth Memory sein. Dieser läuft bei der Titan V mit einem Takt von 850 MHz und erreicht bei verwendeten 3.072 Bit Speicherinterface eine Speicherbandbreite von 652,8 GB/s. Solche Rechenfehler treten gerne auf, wenn es zu Glitches oder einem Bitflip im Speicher kommt. Ohne ECC (Error Correcting Code) können diese Fehler nicht erkannt werden und setzen sich in den Berechnungen fort. Die Titan V kommt ohne aktives ECC, die Datacenter-Varianten Tesla V100 verfügen über ECC und lassen den HBM2 mit bis zu 879 MHz arbeiten.

Es wäre also durchaus möglich, dass der HBM2 Fehler produziert, die bei den Tesla-V100-Varianten durch den ECC erkannt werden, auf der Titan V durch den fehlenden aber nicht. HBM2 verfügt über eine ECC-Unterstützung, diese ist bei den Verwendung auf Consumer-Hardware aber nicht aktiv.

Derzeit sind noch viele Fragezeichen vorhanden. So sind die genauen Gründe für die fehlerhaften Berechnungen, bzw. Varianzen unbekannt. Es gibt zahlreiche Gründe dafür und nicht in jedem Fall ist NVIDIA dafür verantwortlich. Wir haben bei NVIDIA nachgefragt, ob es weitere Erkenntnisse zu diesem Thema gibt. Spätestens auf der GPU Technologies Conference in der kommenden Woche dürfte das Thema noch einmal auf den Tisch kommen.

Social Links

Ihre Bewertung

Ø Bewertungen: 0

Tags

Kommentare (24)

#15
customavatars/avatar269623_1.gif
Registriert seit: 02.05.2017

BannedForEveR
Beiträge: 9098
Zitat Oberteufel;26229085
Vielleicht wurde die Preiskalkulation der Titan V auch mit eben dieser durchgeführt? :fresse:


Naja 10% mehr oder weniger hätte den Braten auch nicht fett gemacht. :fresse:

Mit dem zweiten Teil hast du natürlich recht, aber hier fehlt noch das offizielle Statement von NVidia, leider wie so oft ...
#16
customavatars/avatar104207_1.gif
Registriert seit: 12.12.2008
Wien
Kapitänleutnant
Beiträge: 1806
Zitat Holzmann;26229114
Mit dem zweiten Teil hast du natürlich recht, aber hier fehlt noch das offizielle Statement von NVidia, leider wie so oft ...

Du kannst doch englisch lesen, oder?
Ein paar Posts weiter oben hab ich die Aussage der Entwickler der Software zitiert, die konnten den Fehler nicht reproduzieren.

NV selbst hat auch bereits ein Statement abgegeben, nur weil du nicht bereit bist in der Quelle nachzulesen oder dir keiner hier ein Update schreibt heißt es nicht dass es kein Statement gab, aber ich poste es Dir mal direkt aus der Quelle der Meldung
Zitat
A spokesperson for Nvidia has been in touch to say people should drop the chip designer a note if they have any problems. The biz acknowledged it is aware of at least one scientific application – a molecular dynamics package called Amber – that reportedly is affected by the Titan V weirdness.
"All of our GPUs add correctly," the rep told us. "Our Tesla line, which has ECC [error-correcting code memory], is designed for these types of large scale, high performance simulations. Anyone who does experience issues should contact [email][email protected][/email]."


Was erwartet Ihr Euch von NV? Sollen sie bei jedem von Euch separat anklopfen und informieren?
Warum sich der Anwender mit seinem Problem nicht gleich direkt bei NV oder dem Entwickler der SW gemeldet hat, sondern sich zuerst direkt an Presse gewendet hat macht mich eigentlich am meisten stutzig.
Ist ähnlich wie bei den Sicherheitslücken bei AMD wo auch dem Hersteller nicht einmal zuerst die Gelegenheit gegeben wurde das Thema intern zu checken, nein, immer sofort gleich an die große Glocke hängen.
#17
customavatars/avatar269623_1.gif
Registriert seit: 02.05.2017

BannedForEveR
Beiträge: 9098
@fidel

Ok das Statement hatte ich nicht gelesen/gesehen, NV weiß also bisher nichts über Probleme.

Dennoch, bei einer GPU für 3000 Euro kann ich erwarten, dass diese auch korrekt rechnet. Wenn es von 4 Stück nur 2 tun, dann sind nicht die Wissenschaftler schuld, sondern Nvidia, welche die Karte dann falsch konzipiert haben. Wenn nur manche ohne ECC korrekte Ergebnisse liefern, dann sind die anderen schlicht defekt.
#18
customavatars/avatar104207_1.gif
Registriert seit: 12.12.2008
Wien
Kapitänleutnant
Beiträge: 1806
NV ist der Fehler vom Entwickler der SW gemeldet worden, der den Fehler selbst nicht reproduzieren und schreibt selbst dass das Problem auch mit anderen Karten auftreten kann.

Du hast keine Ahnung von welchen Berechnungen wir hier reden, geschweige denn davon wie lange hier gerechnet wird.

Nur 1 kleiner Fehler führt zu falschen Ergebnissen, warum bloß gibt es im professionellen Bereich Rechnersysteme mit ECC? Sind alles Idioten die auf teurere Hardware setzen, geht doch alles auch mit Consumer-HW auch.

Wer für solche Berechnungen HW ohne ECC einsetzt handelt fahrlässig, übrigens einer der Gründe warum ich [email protected] überhaupt nichts halte.

Ich, bzw meine Gruppe, arbeitet im Bereich ProteinEngineering und in-silico prediction und ich verstehe von diesen Berechnungen auf jeden Fall mehr wie vermutlich jeder andere Poster in diesem Thread.
#19
customavatars/avatar269623_1.gif
Registriert seit: 02.05.2017

BannedForEveR
Beiträge: 9098
Das Problem liegt auf der anderen Seite, aber niemand begreift es:

Die Titan V ist genauer als korrekt. Sie zeigt, dass gleiche Rechnungen unterschiedliche Ergebnisse haben können. Quanteneffekt. Ab einer bestimmten Genauigkeit, verändert sich das Resultat. Nur bislang waren weder Menschen noch Maschinen dazu im Stande eine solche Genauigkeit zu erreichen. In Wahrheit rechnen wir alle falsch. Bis jetzt. Klare Sache. Die Karte ist ihrer Zeit weit voraus. Der Wahnsinn. Schade, dass nun über die Titan V hergezogen wird. Aber so ist das nun mal mit Genies. ;)

Aber im Ernst, interessant wäre, ob dies auch bei den Quadros auftritt, die m.W. Forscher bislang immer für physikalische Berechnungen etc. benutzen ...
#20
customavatars/avatar95761_1.gif
Registriert seit: 27.07.2008

Kapitän zur See
Beiträge: 3074
Da scheint sich NVIDIA mal wieder verrechnet zu haben. :haha:
Naja, die Titan V ist ja auch keine Profikarte. Sie ist mehr so eine Art Gaming-Karte die man zu Profipreisen verkauft. Also eben eine GTX Titan.
#21
Registriert seit: 01.01.1970


Beiträge:
Zitat Pickebuh;26235632
Da scheint sich NVIDIA mal wieder verrechnet zu haben. :haha:
Naja, die Titan V ist ja auch keine Profikarte. Sie ist mehr so eine Art Gaming-Karte die man zu Profipreisen verkauft. Also eben eine GTX Titan.


Bin deiner Meinung
#22
customavatars/avatar89889_1.gif
Registriert seit: 19.04.2008
PorscheTown
Vizeadmiral
Beiträge: 6898
Zitat Holzmann;26231012
In Wahrheit rechnen wir alle falsch. Bis jetzt. Klare Sache. Die Karte ist ihrer Zeit weit voraus. Der Wahnsinn. Schade, dass nun über die Titan V hergezogen wird. Aber so ist das nun mal mit Genies. ;)

Aber im Ernst, interessant wäre, ob dies auch bei den Quadros auftritt, die m.W. Forscher bislang immer für physikalische Berechnungen etc. benutzen ...

:bigok:
Genies = Geforce

Die Quadros haben ECC GDDR bzw. HBM(²)
#23
customavatars/avatar81596_1.gif
Registriert seit: 05.01.2008
Heilbronn
Fregattenkapitän
Beiträge: 2565
Die rechnet halt V mal Daumen... Ehm Pi... Ok, der kommt im Englischen vllt besser :heuldoch:
#24
customavatars/avatar89889_1.gif
Registriert seit: 19.04.2008
PorscheTown
Vizeadmiral
Beiträge: 6898
Zitat iLLuminatusANG;26236698
Die rechnet halt V mal Daumen... Ehm Pi... Ok, der kommt im Englischen vllt besser :heuldoch:

Eine frontier ist manchmal, auch nicht verkehrt: AMD Radeon Vega Frontier Edition Liquid Preisvergleich Geizhals Deutschland

Zitat
Rechenleistung: 13107GFLOPS (Single), 819GFLOPS (Double)

Im Verbund komme ich auf = 1800 GFLOPS (²)
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

  • Sapphire Radeon RX Vega 64 Nitro+ im Test

    Logo von IMAGES/STORIES/2017/SAPPHIRE-VEGA

    Heute ist es endlich soweit: Wir können uns das zweite Custom-Design der Radeon RX Vega anschauen. Dabei handelt es sich um die Sapphire Radeon RX Vega 64 Nitro+, die besonders durch die Kühlung auf sich aufmerksam machen will. Drei Slots, drei Axiallüfter und sogar eine spezielle... [mehr]

  • Die GeForce RTX 2080 Ti und RTX 2080 Founders Edition im Test

    Logo von IMAGES/STORIES/2017/GEFORCERTX2080

    Heute nun ist es endlich soweit und wir präsentieren die vollständigen Leistungsdaten und Messwerte zu den beiden ersten Karten der GeForce-RTX-20-Serie von NVIDIA. Nach der Vorstellung der Pascal-Architektur im Mai 2016 sind die neuen Karten für NVIDIA in vielerlei Hinsicht ein... [mehr]

  • Kleiner Turing-Ausbau: Gigabyte GeForce RTX 2070 WindForce 8G im Test

    Logo von IMAGES/STORIES/2017/GIGABYTE-RTX2070-WINDFORCE-LOGO

    Gestern war es soweit und mit der GeForce RTX 2070 startet die vorerst "kleinste" GeForce-RTX-Karte der neuen Serie von NVIDIA. Mit der Gigabyte GeForce RTX 2070 Windforce 8G haben wir ein Partnermodell im Test, denn die Founders Edition ist bislang noch nicht verfügbar. Erwartet wird die GeForce... [mehr]

  • PowerColor Radeon RX Vega 56 Red Devil im Test

    Heute wollen wir unsere Artikelübersicht zu den Custom-Modellen der Radeon RX Vega abrunden, denn mit der PowerColor Radeon RX Vega 56 Red Devil steht uns das Modell eines weiteren AMD-Exklusivpartners zur Verfügung. Das erste Mal haben wir nun auch die Gelegenheit uns eine solche Variante auf... [mehr]

  • Die GeForce RTX 2080 Ti leidet offenbar an erhöhter Ausfallrate (6. Update)

    Logo von IMAGES/STORIES/2017/GEFORCERTX2080TI

    Reddit und diverse Foren laufen heiß, denn seit einigen Tagen mehren sich die Berichte, nach denen es bei der GeForce RTX 2080 Ti zu einer erhöhten Ausfallrate kommt. Bestätigt ist dies bislang nicht, auch weil belastbare Zahlen fehlen und diese sicherlich nur durch NVIDIA selbst oder die... [mehr]

  • GeForce RTX 2080 Ti von ASUS und MSI im Test

    Logo von IMAGES/STORIES/2017/ASUS-STRIX-RTX2080TI-25_EBA36C79E22348199FB2B590657E5413

    Nach den ersten drei Modellen der GeForce RTX 2080 schauen wir uns nun zwei Custom-Varianten der GeForce RTX 2080 Ti an. Diese stammen aus dem Hause ASUS und MSI, unterscheiden sich äußerlich in einigen Aspekten natürlich, sind sich auf den zweiten Blick aber ähnlicher als man denken möchte.... [mehr]