NEWS

Grafikkarten

Die GeForce RTX 2080 Ti leidet offenbar an erhöhter Ausfallrate (6. Update)

Portrait des Authors


Die GeForce RTX 2080 Ti leidet offenbar an erhöhter Ausfallrate (6. Update)
967

Werbung

Reddit und diverse Foren laufen heiß, denn seit einigen Tagen mehren sich die Berichte, nach denen es bei der GeForce RTX 2080 Ti zu einer erhöhten Ausfallrate kommt. Bestätigt ist dies bislang nicht, auch weil belastbare Zahlen fehlen und diese sicherlich nur durch NVIDIA selbst oder die Boardpartner geliefert werden könnten. Üblicherweise liegt die RMA-Rate bei den Grafikkarten im niedrigen, einstelligen Prozentbereich. Dies soll hier jedoch anders sein.

Der Fehler stellt sich häufig wie folgt dar: Nach mehreren Tagen Betrieb der Karte, zeigt diese allmählich Ausfallerscheinungen in Form von Bildfehlern und Bluescreens (BSOD). Wodurch diese Bildfehler begründet sind, lässt sich nicht eindeutig feststellen. Die Probleme treten sowohl bei der GeForce RTX 2080 Ti Founders Edition, die direkt von NVIDIA verkauft wird, als auch bei den Partnerkarten auf. 

In unserem Forum haben seit der ersten Auslieferung der Karte vier Nutzer ihre GeForce RTX 2080 Ti als defekt beschrieben. Allesamt wurden diese luftgekühlt – dies muss aber bei dieser geringen "Menge" an Samples aber noch nichts bedeuten.

Auch ein Zusammenhang mit einem werksseitigen oder manuellen Overclocking lässt sich derzeit nicht herstellen. Im Raum steht zudem die Frage, ob das Flashen der Karte mit teilweise weit erhöhten Power-Limit Auswirkungen haben können.

Derzeit treten die Probleme offenbar in gehäufter Form nur bei der GeForce RTX 2080 Ti auf. Die GeForce RTX 2080 und GeForce RTX 2070 scheint nicht von der Auffälligkeit betroffen zu sein. Die GeForce RTX 2080 Ti verwendet mit der TU102 die derzeit größte Turing-GPU für den GeForce-Einsatz. Diese kommt auf eine Chipfläche von 754 mm² und besitzt 18,6 Milliarden Transistoren. Aber wie gesagt, auch andere Komponenten könnten für den Ausfall sorgen. So wäre der GDDR6-Speicher aus dem Hause Micron ein möglicher Kandidat. Aber auch die Spannungsversorgung könnte verantwortlich sein.

Letztendlich kann nur NVIDIA zusammen mit seinen Partnern eine Antwort auf die Fragen geben. Fraglich ist jedoch, ob es überhaupt zu auffällig häufigen Ausfällen kommt. Aufgrund der noch immer knappen Liefersituation rund um die Modelle der GeForce RTX 2080 Ti kommt er derzeit zudem auch noch zu Verzögerungen in der Behandlung der RMA-Fälle.

Da die Frage der erhöhten Ausfallrate immer wieder mit dem Overclocking in Verbindung gebracht wird, noch ein paar Sätze dazu: NVIDIA schränkt sowohl die Strom- als auch die Spannungsversorgung der neuen Turing-Karten in der Form ein, dass die Hardware eigentlich nicht in einem für sie schädlichen Bereich betrieben werden kann. Selbst wenn das Power-Limit auf das Maximum angehoben wird, limitiert irgendwann die Spannung, die an der GPU anliegt. Diese ist auf 1.068 V begrenzt. Der In den OC-Tools vorhandene Spannungs-Regler gibt einen Spielraum von 0 bis 100 % frei, was allerdings nur das von NVIDIA zusätzlich freigegeben Spannungspotenzial darstellt. Auch hier gibt es also ohne Modifikation der Hardware selbst keine Möglichkeit diese über den von NVIDIA vorgesehenen Grenzen zu betreiben.

1. Update:

Auch wenn wir bisher keinerlei derartige Probleme bei unseren Samples der GeForce RTX 2080 Ti beobachtet haben, haben wir einige Messungen vorgenommen, um die thermische Belastung der Karte zu untersuchen. Verwendet haben wir eine Founders Edition der GeForce RTX 2080 Ti.

Zunächst einmal haben wir ein paar Messungen mit einer Wärmebildkamera gemacht und die Karte dazu einmal mit Standard-Takt und einmal übertaktet betrieben.

100 % Power-Limit, GPU-Boost bei etwa 1.850 MHz, GDDR6 auf 1.750 MHz: Hier wird der Bereich rückseitig der Speicherchips zwischen 73 und 74 °C warm.

123 % Power-Limit, GPU-Boost bei 2.000 MHz und GDDR6 auf 1.950 MHz: Der Bereich rückseitig der Speicherchips in direkter Linie zu den Spannungsphasen (von der GPU ausgehend) wird um 5 °C wärmer und liegt nun bei 78 bis 79 °C.

In jedem Fall auffällig ist das wärmere PCB an den Stellen, wo vermeintlich die Leiterbahnen der Spannungsphasen verlaufen. Also nicht nur rückseitige der Speicherchips sieht man Hotspots, sondern diese decken sich mit den Bereichen, worüber die Versorgung der GPU verläuft. Links der GPU kann man ebenfalls schmale Bereiche sehen, der wärmer werden. Hier verläuft die Versorgung der sechs Spannungsphasen, die sich auf der anderen Seite der GPU befinden.

Dies sind nun alles keine neuen Erkenntnisse, bestätigt aber zumindest das, was bisher teilweise vermutet und von TomsHardware auch gemessen wurde. Einige der Chips werden wohl sehr warm, ob zu warm können wir aber nicht sagen. Ausgelegt sind die GDDR6-Chips von Micron für eine Betriebstemperatur von bis zu 95 °C. Ob wir direkt an den Chips gemessen an diese 95 °C kommen, wird sich noch zeigen.

Nun sind Messungen mit demontierter Backplate auf der Rückseite des PCBs zwar eine Möglichkeit mittels einer Wärmebildkamera zu arbeiten, allerdings kann eine Backplate auch eine Unterstützung bei der Abführung der Wärme sein. Entsprechend verwendet NVIDIA auch Wärmeleitpads zwischen dem PCB und der Backplate.

Oben sind noch einmal zwei Wärmebilder mit Backplate zu sehen, welche den Temperaturunterschied an den Oberflächen des PCBs und der Backplate aufzeigen sollen. Wir sprechen also von einer Temperaturdifferenz von 10 °C zwischen Backplate und PCB und man sieht auch, dass sich die Temperatur unter der Backplate etwas gleichmäßiger verteilt. Idealerweise hätten wir eine fast identische Temperaturen messen müssen, denn dann würde die Backplate ihren Zweck erfüllen und die Abwärme besser aufnehmen und ihrerseits wieder abgeben können.

In der Folge sind wir zu direkteren Messungen übergegangen und haben dazu 80PK-1-Messfühler zusammen mit einem Fluke 52 II verwendet, um die Temperatur mit entsprechenden Klebestreifen direkter an den GDDR6-Chips messen zu können. Wir haben die Fühler jeweils zwischen zwei Chips geklebt. Dazu zunächst einmal aber noch ein Bild des Layouts des PCBs der GeForce RTX 2080 Ti.

Links und recht des GPU-Packages sind jeweils sechs Spannungsphasen zu sehen, welche die GPU versorgen. Entsprechend führen Leiterbahnen zur Versorgung durch das PCB zum GPU-Package. Auf drei Seiten rund um das GPU-Package sind die elf GGDR6-Speicherchips platziert. Den Messfühler haben wir zwischen M6 und M7 sowie zwischen M2 und M3 angebracht und die Temperaturen aufgezeichnet.

Temperaturmessungen der GDDR6-Speicherchips
  M6 und M7 M2 und M3
Standardtakt 84 °C 78 °C
Overclocking 92 °C 86 °C

Gemessen haben wir wieder mit einem Standardsetting (100 % Power-Limit, GPU-Boost bei etwa 1.850 MHz, GDDR6 auf 1.750 MHz) und mit einem Overclocking-Setting (123 % Power-Limit, GPU-Boost bei 2.000 MHz und GDDR6 auf 1.950 MHz).

Wir messen für ein Overclocking der Karte Temperaturen direkt am Chip von bis zu 92 °C. Dies liegt natürlich schon recht nahe an der maximalen Temperatur von 95 °C, die Micron als Hersteller des GDDR6 angibt. Zu bedenken ist wohl auch, dass es zwischen der Temperatur am Messfühler und der Chiptemperatur noch ein kleines Delta geben dürfte. Ohne Übertaktung bleiben die Chips etwas kühler und es gibt auch eine Differenz zwischen den Speicherchips M5 bis M8, die deutlich wärmer werden und denen, die nicht in direkt im Bereich liegen (wie M1 bis M4), der auch zur Versorgung der GPU vorgesehen ist.

Wir haben die Karte unter angegebenen Overclocking über Nacht im 3DMark TimeSpy-Loop laufen lassen und danach auch einige Spiele getestet. Abstürze gab es keine. Letztendlich können wir damit auch die Frage nach den Gründen für die Ausfälle der GeForce RTX 2080 Ti nicht final beantworten. Aufgrund weiterer Test, die Nutzer im Forum gemacht haben, wird ein Zusammenhang mit zu hohen Temperaturen aber immer wahrscheinlicher.

2. Update

Da es gewünscht wurde und im Vergleich zur geForce RTX 2080 Ti auch Sinn macht, ein paar Messungen zur GeForce RTX 2080 Founders Edition. Erst mit Backplate, dann ohne.

100 % Power-Target, 1.900 MHz Boost-Takt, 1.750 MHz Speichertakt: Temperatur der Backplate: 64,5 °C.

120 % Power-Target, 2.025 MHz Boost-Takt, 2.000 MHz Speichertakt: Temperatur der Backplate: 70,7 °C.

Dann ohne Backplate: 100 % Power-Target, 1.900 MHz Boost-Takt, 1.750 MHz Speichertakt: Temperatur des PCBs (Unterseite Speicher): 71,4 °C / (Unterseite VRMs) 76,7 °C.

120 % Power-Target, 2.025 MHz Boost-Takt, 2.000 MHz Speichertakt: Temperatur des PCBs (Unterseite Speicher): 71,6 °C / (Unterseite VRMs) 86,7 °C.

Die Speicherchips der GeForce RTX 2080 werden also nicht so warm, wie die auf der GeForce RTX 2080 Ti. Dies liegt aber wohl vor allem daran, dass die VRMs bei der GeForce RTX 2080 Ti näher an den GDDR6-Speicherchips sitzen und diese aufheizen. Die VRMs werden im Betrieb immer recht warm, bei der GeForce RTX 2080 heizen diese aber den Speicher nicht in der Form auf.

Noch immer wissen wir aber nicht, ob die Temperaturen wirklich das Problem sind. Sollte dies der Fall sein, so ist die GeForce RTX 2080 aber deutlich weniger gefährdet.

3. Update

Nachdem nun einige Tage ins Land gezogen sind, wollen wir das Thema noch einmal etwas relativieren. Wir haben mit allen großen Partnern von NVIDIA gesprochen und dabei eigentlich immer die selbe Antwort bekommen: Keiner der Boardpartner sieht derzeit eine signifikant höhere RMA-Quote bei den GeForce-RTX-Karten – auch nicht speziell auf die GeForce RTX 2080 Ti bezogen. Caseking hat sich nun dazu geäußert und nennt konkrete Zahlen. Dabei nimmt man auch Bezug auf Karten der GeForce-GTX-10-Serie. Demnach kommt eine GeForce GTX 1080 auf eine Rücksendequote von 7,1 %. Dies ist schon recht hoch, denn typischerweise liegt die Quote zwischen 3 und 5 %, kann aber auch leicht darüber und darunter liegen. Die GeForce GTX 1080 Ti liegt mit 4,6 % im normalen Bereich.

Die GeForce RTX 2080 kommt bei Caseking auf eine Rücksendequote von 0,2 % und die GeForce RTX 2080 Ti auf 1,4 %. Dies sind sehr niedrige Zahlen, allerdings sollten noch einige Einschränkungen gemacht werden. Zunächst einmal sind die GeForce-RTX-Karten erst wenige Wochen auf dem Markt. Dementsprechend fällt die Rücksendequote noch etwas niedriger aus, als dies zu einem späteren Zeitpunkt zu erwarten ist. Zudem pendelt sich eine Rücksendequote erst nach wenigen Monaten auf einen Wert ein, weil erst dann eine gewisse kritische Masse an Stückzahlen erreicht ist und Defekte sich auch erst nach einer gewissen Zeit bemerkbar machen.

Ebenfalls zu erwähnen ist, dass Caseking ausschließlich Partnerkarten von ASUS, EVGA, MSI, Gigabyte und Co verkauft. In den Foren ist aber von einer Häufung bei der GeForce RTX 2080 Ti in der Founders Edition die Rede. Über diese Karten können die Zahlen von Caseking keine Aussage machen. Dies könnte nur NVIDIA selbst tun.

Eine erhöhte Ausfallrate der GeForce RTX 2080 Ti ist somit also weiterhin weder bestätigt, noch wiederlegt. Unseren Messungen haben zudem nicht den Anspruch das Problem identifiziert zu haben – anders als häufig gemachte Aussagen im Netz, die darauf Bezug nehmen.

4. Update

Die Kollegen von GamersNexus haben sich von zahlreichen Nutzern unterschiedliche Modelle der GeForce RTX 2080 Ti zuschicken lassen. Zumindest einer der Fehler konnte dabei nachgestellt werden. Offenbar wird der BSOD (Blue Screen of Death) mit dem Stop Code "IRQL NOT LESS OR EQUAL" durch eine bestimmte Kombination an Grafikkarte und Monitor verursacht. Genauer gesagt kam dabei ein G-Sync-Monitor mit einer Bildwiderholrate mit 60 Hz zum Einsatz. Mit einem Monitor ohne G-Sync trat das Problem nicht auf.

NVIDIA soll das Problem bereits bekannt sein und wird in den kommenden Tagen einen neuen Treiber veröffentlichen. Dieser soll das Problem mit GeForce-RTX-Karten im Zusammenspiel mit einem G-Sync-Monitor beheben. Auch wer einen zweiten (oder mehr) Monitor am System betreibt, kann mit GeForce-RTX-Karten Probleme bekommen. Diese Probleme sind aber allesamt in gewisser Weise vom verwendeten Monitor(setup) abhängig und können mit einem Treiber-Update behoben werden.

Auf womöglich durch die Hardware begründete Fehler will man noch genauer eingehen.

Datenschutzhinweis für Youtube



An dieser Stelle möchten wir Ihnen ein Youtube-Video zeigen. Ihre Daten zu schützen, liegt uns aber am Herzen: Youtube setzt durch das Einbinden und Abspielen Cookies auf ihrem Rechner, mit welchen Sie eventuell getracked werden können. Wenn Sie dies zulassen möchten, klicken Sie einfach auf den Play-Button. Das Video wird anschließend geladen und danach abgespielt.

Ihr Hardwareluxx-Team

Youtube Videos ab jetzt direkt anzeigen

5. Update

Nachdem es nun einige Tage still um das Thema geworden ist, gibt es dennoch weitere Ergebnisse. GamersNexus hat sich ein Dutzend Founders Editionen angeschaut und konnte das Problem nicht auf eine Komponente einschränken. Bei einigen Karten traten die Artefakte bereits bei 70 °C auf, andere liefen aber auch mit 100 °C am Speicher noch problemlos. Micron ist damit wohl vorerst aus dem Schneider – war nach genauerer Betrachtung aber auch nicht der alleinig Schuldige.

Bereits mehrfach wurden schlechte Lötstellen als Grund für den Fehler vermutet, denn auch hier spielen die Temperatur und eine Ausdehnung und das Zusammenziehen der Komponenten eine Rolle. Die GDDR6-Speicherchips und auch das GPU-Package selbst sind per BGA (Ball Grid Array) auf dem PCB verlötet. Die kleinen BGA-Balls werden mit den entsprechenden Pads auf dem PCB in Verbindung gebracht. Im Falle eines GDDR6-Speicherchips sprechen wir von 190 Kontakten. Beim GPU-Package dürften es einige tausend sein.

Das Verlöten findet in einem Reflow-Ofen statt. In diesem wird über heiße Luft oder Mikrowellen (je nach Maschine und Anforderungen) die Lötpaste zum Schmelzen gebracht und das Bauteil damit verlötet. Da das PCB und vor allem die Bauteile recht empfindlich sind, können hier nicht beliebige Temperaturen verwendet werden. Ein solcher Reflow-Ofen besteht daher aus mehreren Temperaturzonen. Je nach PCB und Bauteilen können dies bis zehn Temperaturzonen sein. Ein solcher Vorgang ist also nicht ganz einfach zu steuern und kann zu Fehlern führen.

Über einen Funktionstest in der Fertigung können solche Fehler teilweise erkannt werden. Ein 3D-Röntgenbild ermöglicht ebenfalls eine entsprechende Analyse, wird aber nicht für jedes gefertigtes Bauteil vorgenommen. Es wäre also durchaus denkbar, dass ein solcher Fehler in der Fertigung bzw. während des Lötvorgangs für die Ausfälle einiger Karten sorgt.

Letztendlich aber werden wir darauf angewiesen sein, ob und wie sich NVIDIA zu dem Thema äußert und die Gründe nennt. Dies hängt aber wohl auch von der wirklichen Ausfallquote der Karten ab und eben diese lässt sich derzeit nicht abschätzen.

6. Update

NVIDIA hat sich erneut zum Thema geäußert und offenbar einige interne Nachforschungen angestellt. Nach diesen gab es bei frühen Versionen der GeForce RTX 2080 Ti einen nicht näher beschriebenes Problem, welches allerdings auf geringe Stückzahlen limitiert auftreten soll. Man arbeite an einer Problemlösung mit den Besittzern einer solchen Karte.

 

"Limited test escapes from early boards caused the issues some customers have experienced with RTX 2080 Ti Founders Edition.

We stand ready to help any customers who are experiencing problems."