Assa's Repair-Worklog: Wenn Grafikkarten ein zweites Leben erhalten

Bei Wärmeleitpads muss man wahnsinnig mit der Dicke und Festigkeit aufpassen. Wenn man den Kühler mit zu dicken Pads verschraubt, können genau solche Fehler über die Zeit leicht auftreten. Denke mal da werden Lötstellen unter einem/mehreren Speicherchips oder der GPU gebrochen sein. Das ist theoretisch einfach fixbar, man muss die Teile "nur" neu verlöten. Muss auch nichtmal was mit den Pads zu tun haben, kann auch einfach so passieren.

Krisfix (www.gpufix.de) macht das z.B. gewerblich und nimmt für die Reparatur 169€, ich traue mich an solche neuen Karten noch nicht ganz ran.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Sie lebt 🤩

1708377506065.png


Patientin Nummer 2 wird vermutlich keine so guten Chancen haben. Die wirft lustige bunte Artefakte :(
 
Die Karte ist ja noch was wert, also würde ich die raten sie zu krisfix zu schicken.
 
Habe aktuell einen leichten Problemfall und stehe vor der Frage, ob für die Karte Schluss ist oder es sich noch was zu machen lohnt.
Im Konkreten gehts um meine Asus 6900 XT TUF Top.

Das Problem ist wie folgt:
Die Karte hat reproduzierbar in mehreren PCs das Problem, dass sie, sofern ohne Stütze eingebaut und ordentlich verschraubt, gar kein Bild anzeigt und die Lüfter nicht andrehen.
Nutzt man dagegen die GPU-Stütze und bringt sie komplett in die Waagrechte, gibts ein Bild und sie läuft. Neuerdings ist es allerdings so, dass sie dann bei 3D-Anwendungen aussteigt und sich in einen Blackscreen verabschiedet.

Da das Teil noch gar nicht mal alt ist, habe ich sie zu Asus in die RMA geschickt. Diese wurde dann der Tage abgelehnt, es soll Fremdverschulden vorliegen, Asus hat die Karte aber mit einem R für repairable gekennzeichnet, mir aber leider nicht mitgeteilt, was kaputt ist oder was es kosten würde, das zu reparieren. Stattdessen kann ich sie wiederhaben oder verschrotten lassen. Aus den beiliegenden Bildern bin ich nicht wirklich schlau geworden, mechanisch sieht man erstmal nichts, ich denke aber, man hat sich an den gewechselten Wärmeleitpads gestört, die da allerdings schon ne Weile drin sind und ordentlich funktioniert haben.

Was wäre jetzt das optimale weitere Vorgehen? Schreibe ich das Teil am besten gleich ab oder ist da noch was zu machen? Multimeter und Heißluftlötstation wären vorhanden, ich wüsste nur nicht, was ich messen soll, da das Teil ja im 2D funktioniert.

Klingt ja nach einer gebrochen Leiterbahn, oder gebrochenen Lötstellen z.B. unter den RAM Baustein in Slot-Nähe. Das Erste wäre wohl die Problemstelle genau zu lokalisieren, z.B mit einem VRAM Test, oder mit einem Stereomikroskop nach gebrochen Lötstellen an anderen Bauteilen in Slot-Nähe zu suchen.
 
Ich schau mir das am Wochenende mal genauer an, hoffentlich findet sich da was. Gibts da irgendwas Vergleichbares zu MATS für AMD? Weil unter Windows in eine 3D-Anwendung ist leider schon nicht mehr drin.
 
AMD hat tserver als tool.
 
Hast du schon von unserem Freund und Retter Nvidia MODS gehört? :d
tatsächlich nicht, mal anschauen. Vlt. trau ichs mir dann sogar zu mal nen Chip selbst zu tauschen, sofern es nur einer ist der Probleme hat.
 
F

20240220_181425(1).jpg

hat jemand nen link zu mods bzw. kanns mir per pn schicken? Lade nur ungern zeug von irgendwelchen russischen Forenservern runter 😅
 
F

Anhang anzeigen 973218

hat jemand nen link zu mods bzw. kanns mir per pn schicken? Lade nur ungern zeug von irgendwelchen russischen Forenservern runter 😅
So sieht das analoge SAT Fernsehen bei schlechtem Wetter aus :fresse2:
Ich hatte auch mal GTX 590 mit ähnlichen Problemen, einfach zu heiß die Teile.
 
ich hab so bisschen die Hoffnung, dass es nur n kaputtes BIOS is. Mit der Karte im zweiten Slot kann ich ins Windows und GPU-Z zeigt mir beide 590 an aber keine BIOS Versionen dabei, nebst in paar anderen Dingen. nvflash findet sie auch, aber crasht mir komplett windows, wenn ich versuche ein BIOS zu flashen. Sehr strange.

@Masterchief79 erstmal für die 590 und die Titan Black ^^
 
Moin Leute,

meine EVGA RTX2080 XC Ultra (Samsung RAM - 25 Ohm zu GND) fing kürzlich an den Treiber abschmieren zu lassen. Drei Tage später zeigt sie zwar noch ein Bild, aber der Treiber lässt sich dank Code 43 nicht mehr starten. Selbes Problem in einem anderen, nagelneuen PC.
Auch mit den zwischenzeitlichen Treiberabstürzen hatte ich keinerlei Probleme mit einer gelegentlichen Runde CS2.

Das BIOS habe ich ohne weiteren Erfolg neu geflasht.
Ein Test mit MATS ergibt, dass gleichmäßig auf allen Speichermodulen fast exakt die gleiche Zahl an Errors auftritt.
Auffällig nach dem Zerlegen war, dass super wenig und ungleichmäßig Wärmeleitpaste ab Werk drauf war....
Mein mehr oder weniger laienhafter Verdacht geht entweder auf die GPU itself, die Spannungsversorgung des RAMs oder die Strap Resistors.

Ich habe keine vernünftige Möglichkeit im Betrieb Spannungen zu messen, aber habe eine Heißluftlötstation und durchaus Löterfahrung.
Gibt es Komponenten die man in diesem Fall halbwegs sinnvoll auf gut Glück tauschen kann? Z.B. den Memory PWM Controller (UP9512P).

Danke für eure Ideen!
 
Zuletzt bearbeitet:
Ist die Menge an Errors sehr gering? Nix bei denken, das ist normal (so ein paar hundert). Ist das Silizium der GPU außenrum Braun angelaufen wo wenig WLP war?
Am besten mal nen mods test laufen lassen, kriegst ne ausführliche Antwort morgen von mir (wenn nicht dann ping mich ruhig).
 
Ich kann es leider nicht so recht einschätzen. Aber selbst mit 1MB sind es mehrere tausend.
Die GPU sieht perfekt glänzend aus.

Für eine funktionierende MODS Syntax wäre ich aber auf jeden Fall dankbar, da ich mit der entdeckten Anleitung keine funktionierende hinbekommen habe.


Zusätzlich könnte ich die Straps auslöten und prüfen. Welchen Wert müssen die haben?
 
Zuletzt bearbeitet:
Mit wieviel MB bei Mats hast du getestet? Waren das Read oder Write Errors die auf allen Bänken war?
Kannst ja ggf. auch mal den report hier anfügen.
 
Es waren nur Write Errors. Ich habe zwischen 1 und 10MB mehrfach getestet. Die Report.txt hat er allerdings nicht geschrieben.... Hab mir die Daten mit |less anzeigen müssen.
 
Ich kann es leider nicht so recht einschätzen. Aber selbst mit 1MB sind es mehrere tausend.
Nutzt du die richtige Version für die Karte? Mods/Mats ist da recht empfindlich. Mach am besten von dem Bildschirm mal ein Foto mit den Errors. Aber das müsste eigentlich auch in der report.txt stehen. Probier mal "nano reports.txt" bzw. "nano mods.log" war es glaube ich.
Die GPU sieht perfekt glänzend aus.
Der Rand außenrum auch okay? Hier ist was ich meine:
1708937229035.png


Von wegen WLP-Verteilung, so sah eine EVGA 1080TI aus, die ich letzte Woche bekommen habe (versiegelter Kühler übrigens).
20240219_105533.jpg
20240219_105612.jpg
20240219_105633.jpg
 
Bild mit den Errors reiche ich nach.
Die reports.txt hat er mir nicht aktualisiert nach weiteren Tests. Die Version ist die 400.281.2. Er erkennt auch die TU104 GPU korrekt.

Der Rand sieht auf meinem Foto eigentlich gut aus. Müsste ich nochmal später zerlegen.
 

Anhänge

  • gpu.jpg
    gpu.jpg
    1,7 MB · Aufrufe: 34
Zuletzt bearbeitet:
Ne passt, der sieht gut aus.
Das Ergebnis von Mats ist noch nicht belastbar. Läuft der Test ohne Fehler durch, wenn du ohne "less" machst? Einfach so Speicherfehler auf allen Bänken kann nicht sein, es sei denn der Speicher kriegt keine Spannung oder der IMC ist defekt. Das ist bei dir aber definitiv nicht der Fall, du kommst ja bis ins Windows. Würde mich nicht wundern, wenn es wieder gebrochene/korrodierte Lötstellen unter einem Ramchip oder einer Ecke der GPU sind.
Ich würde mal einen Mods Test machen mit der Commandline:
Code:
./mods gputest.jse -oqa -test 118 -run_on_error -ignore_fatal_errors -dramclk_percent 100 -matsinfo
Und poste dann mal das mods.log.
Ich glaube übrigens die richtige Version müsste 400.104 sein, aber das müsste ich nochmal gegenchecken.
 
Mats Test einmal mit 1 und einmal mit 10MB. Ohne Less zeigt er mir auch FAIL.
Mods Befehle kriege ich nicht ausgeführt. Er springt sofort wieder in die Shell zurück.
Möglicherweise doch ein problem mit meiner Version? Oder stört er sich irgendwo an der IGPU, die im UEFI deaktiviert ist?
Ich habe mir noch die 400.184 besorgt. Allerdings habe ich da nur die Binaries ohne die diversen jse/jsone Files....
 

Anhänge

  • IMG_20240226_101915_resized_20240226_103139519.jpg
    IMG_20240226_101915_resized_20240226_103139519.jpg
    703,7 KB · Aufrufe: 25
  • IMG_20240226_102057_resized_20240226_103139058.jpg
    IMG_20240226_102057_resized_20240226_103139058.jpg
    693 KB · Aufrufe: 26
  • IMG_20240226_103040_resized_20240226_103139904.jpg
    IMG_20240226_103040_resized_20240226_103139904.jpg
    313,4 KB · Aufrufe: 25
Zuletzt bearbeitet:
Beim Start schreibt er mir immer die Fehlermeldung "Error Code = 000000000229 (hardware was not initialized)".
Da bin ich dann schnell am Ende.
 
so ne Frage zum Verständnis: wenn ich mal ne kleine Spannung an ne Karte anlege und es wird nichts warm außer der Grafikchip selbst, ist das eher n schlechtes Zeichen oder?
 
Kommt drauf an auf welcher Rail? Wenn bpsw. Memory Rail nen kurzen hat und du sagen wir 2V/3A einstellst und das an die Memory Spulen anlegst - und dann nur die GPU warm wird: Ja, das ist ein schlechtes Zeichen. ;)
 
ok dann hats die wohl hinter sich, wandert dann in die Teilespenderkiste ^^
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh