Erst Speicherprobleme und Bluescreens, dann kein stabiler Neustart mit 2 Bildschirmen

2Stoned

Enthusiast
Thread Starter
Mitglied seit
15.12.2006
Beiträge
272
Ort
Erde
TL;DR: Plötzlich häuften sich Abstürze von Programmen oder vom ganzen System. Ein CMOS reset beseitigt diese, doch nun startet das System nicht immer sauber, wenn mehr als ein Bildschirm angeschlossen ist.

Dies könnte ein etwas längerer Text werden, doch versuche ich, die Situation möglichst vollständig wiederzugeben und darzulegen, was ich bisher versucht habe und was dabei herauskam.

System:

OS: Manjaro Linux (rolling release, basierend auf Arch aber mit eigenem Kernel und eigenen Repos).

Hardware:
CPUAMD Ryzen 3950X
MainboardGigabyte X570 Aorus Ultra
RAM4*16GB ECC Samsung M391A2K43BB1-CTD 2666 CL19 @3200 CL16
Storage2*1 Tb Samsung 970 Evo Plus (NVMe)
WD Green 120 GB SSD (SATA-III)
GPUSapphire RX580 Nitro+ 4GB
NICIntel X550-T2
PSUFractal Ion+ Plantinum 560 Watt
CaseBeQuiet! Silent Base 801
Fans4*Noctua NF-A14
3* BeQuiet! Pure Wings 2

Ursprünglicher Zustand:

Vor gut einem Jahr habe ich das System zusammengebaut (sprich, alle Komponenten haben noch Garantie :d). Unter BIOS F11 habe ich den RAM übertaktet:

SettingGDM onGDM offstock
Takt3400 MHz3400 MHz2667 MHz
CL161620
tRCD171819
tRP151619
tRAS485043
tRC646661
tRFC425425
tRW1212
tFAW1616
Read (MB/s)517255254041420
Latency (ns)72.471.393
PowerDownenabledenabled

Die GDM off Werte habe ich beibehalten und bin damit nun 1 Jahr lang stabil gefahren.

Beginn (?) der Probleme:

Im November durfte ich hier im Forum die GLORIOUS Model D testen. Mit dieser habe ich wieder grossen Spass an Counter-Strike gefunden und spiele dieses nun auch wieder regelmässig. Zum Arbeiten nutze ich die Maus mit der linken Hand. Zum Zocken aber rechts. Mit der neuen Maus kam also ein weiteres USB-Gerät dazu. Manche hier im Forum berichten von Problemen mit USB am X570 Aorus Ultra Mainboard. Aufgefallen wären mir aber keine Probleme die unmittelbar auftraten.

Etwa im Dezember gab es ein Kernel Update 5.10.7 (glaube ich), welches Probleme mit meinem MDADM RAID10 aus zwei Samsung 970 Evo Plus (NVMe) SSDs verursachte: Die Platten synchronisierten nicht sauber. Dies ist mir nur deshalb aufgefallen, weil OneDrive Fehlermeldungen ausgespuckt hat, die darauf hindeuteten, dass die Datenbank und die Dateien nicht übereinstimmen. Mein OS hat nicht gemeckert. Mit Kernel 5.9 oder 5.4 tritt dieses Problem nicht auf, so blieb ich eine Weile bei 5.4 LTS.

Mit der Home-Office-Pflicht war bedarf an Arbeitsplätzen zuhause. So habe ich meinen 23'' Bildschirm von HP (der via DVI angeschlossen wird) weitergegeben und gegen einen Dell Alienware AW2521H (360 Hz) mit DisplayPort ersetzt. Im Multimonitor-Setup liefert dieser aber nur 300 Hz. Alleine aber 360 Hz. Dell will mir nicht helfen, da sie Linux nicht supporten dürfen.

Der Dell bietet einen USB-Hub. Der Anschluss des Hubs (ohne Anschluss irgendwelcher Geräte am Hub), sorgte aber für das Problem, dass manchmal keine USB-Geräte vorhanden waren, wenn ich den PC aus dem Schlafmodus weckte. Das Problem konnte ich aber lösen, indem ich 3 Geräte an den den USB-Hub des Dells anschloss, statt direkt am Mainboard.

Um mal dieses re-Bar zu testen, bin ich auf BIOS F30 gegangen und habe above 4G encoding aktiviert, habe aber erst dann gemerkt, dass rBar erst mit F32 implementiert wurde. Habe aber F30 mit above 4G encoding beibehalten, ohne unmittelbar Fehler zu bemerken.

Vergangene Woche kam dann Kernel 5.10.13, womit das MDADM Problem gefixed wurde. Ich habe also auf den neuen Kernel gewechselt. Einmal ist CSGO mitten im Spiel abgestürtzt und zwar so, dass das Spiel und Steam von einer Sekunde auf die nächste Weg waren. Es gab keinen Hänger oder so, mitten im Spielverlauf lande ich auf dem Desktop und steam und Spiel sind weg. Das war vor etwa 3 Tagen. Bis am Freitag Abend konnte ich aber noch normal weiterarbeiten. Einmal ist vivaldi (browser) abgestürzt, auf ähnliche Weise, plötzlich weg und die laufende Sitzung war auch nicht wiederherzustellen, sprich, alle offenen Tabs waren verschwunden und nur noch im Browserverlauf vorzufinden.

Ich möchte noch darauf hinweisen, dass mein System bis zum besagten Kernelupdate im Dezember (5.10.7) absolut stabil lief. Ich hatte nie Hänger oder Abstürze oder Datenverlust den ich bemerkt hätte.

Am Freitagabend aber häuften sich dann die Probleme:
  • Der Browser blieb mehrmals hängen, zunächst nur einzelne Webseiten, die nicht geladen werden konnten und nur einen toten Vogel auf grauem Grund zeigten
  • Nach einer Weile oder mehreren solchen nicht-funktionierenden Seiten stürtze dann der Browser komplett ab und liess sich nicht mehr öffnen. Auch nicht nach einem Neustart des Systems.
  • Ich wollte den Browser neu installieren, doch nach der Deinstallation wurde er mir über den Paketmanager nicht mehr angeboten. Es war, als wäre er nicht in den Repos. Aber Vivaldi ist in den offiziellen Manjaro repos drin!
  • Auch Thunderbird liess sich nicht mehr starten.
  • Dateien, welche ich auf einen USB-Stick kopierte, liessen sich auf meinem Ubuntu Laptop nicht lesen.
  • Mehrere Systemabstürzte innert Stunden, einmal sogar das graue Bild mit dem Hinweis, ich solle mich an den Systemadministrator wenden.
Lösungsansätze:

Offensichtlich ist etwas gehörig faul im Staate Dänemark mit meinem System. Ich dachte, vielleicht ist es dennoch das MDADM RAID, welches vielleicht einfach nicht mehr unterstützt wird. Ich entschloss mich das System neu aufzusetzen und wollte ZFS nutzen. Doch soweit bin ich noch gar nicht gekommen.

Da ich alle meine Daten extern gesichert habe, habe ich alle 3 Festplatten formatiert. Die folgenden Zeilen beziehen sich also auf ein frisches System ohne Kernel, OS oder RAID.

Als erstes wollte ich Windows 10 auf die WD Green SSD installieren. Doch die Installation schlug etwa 5 Mal fehl. Ich erstellte also einen neuen USB-Stick. Auch mit diesem schlug die Installation fehl. Statt von UEFI: myUSB Part. 1 bootete ich versuchshalber von UEFI: myUSB Part. 2 (sonst bietet das BIOS noch GENERIC: myUSB an). Hiermit klappte die Installation.

Doch das frisch installierte Windows lief nicht stabil. Updates konnten nicht installiert werden (also einzelne, das Gros konnte problemlos installiert werden), und verschiedene BSoDs suchten mich heim, jeweils mit anderen Fehlermeldungen, aber alle deuteten auf Speicherfehler hin! Ich fürchtete um meinen RAM. Einerseits liess ich noch ein
Bash:
chkdsk /f /r
laufen, um Probleme mit der Festplatte auszuschliessen, andererseite startete ich ein
Bash:
mdsched.exe
. Dieses meldete sofort, dass Probleme mit dem RAM vorliegen. Also habe ich einen CMOS reset gemacht und mdsched und anschliessend noch Memtest86 laufen lassen. Beide meldeten keine Fehler.

Also gibt es plötzlich Probleme mit dem RAM OC, obwohl es wunderbar lief? Wieso?

Ich dachte mir also, nun gut, momentan halt kein OC. Ein anderes Problem zeigte sich nun aber. Für den CMOS reset trenne ich den PC vom Strom. Der darauffolgende Kaltstart funktioniert aber nicht immer zuverlässig, wenn beide Monitore angeschlossen sind. Wenn nur mein 2. Bildschirm (via HDMI) angeschlossen ist. Gibt es keine Startschwierigkeiten. Wenn der Dell aber auch angeschlossen ist, klappt es manchmal und manchmal nicht. Die Bildschirme bleiben einfach schwarz. Ein ähnliches Problem soll mit der SOC Spannung von fixen 1.05 V behoben worden sein.

Ich habe nun verschiedene BIOS Versionen ausprobiert (33a, 32, 20, 12), doch alle zeigen das gleiche Verhalten mit dem Kaltstart bei 2 Bildschirmen). Wenn ich nur den HDMI-Bildschirm anschliesse, habe ich aber komische Schneeflocken auf dem Bild. Sobald ich den zweiten Bildschirm anschliesse, gibt es keine Schneeflocken mehr.

Ist der erste Kaltstart überwunden, funktionieren weitere Reboots jedoch. Es kann sein, dass dieses Problem schon lange besteht, da ich den PC nie vom Strom trenne. Die Speicherprobleme sind aber erst kürzlich aufgetreten und haben sich quasi exponentiell vermehrt. Am Freitagabend konnte ich noch arbeiten. Am Samstag ging gar nichts mehr innert kürzester Zeit. Aber wenn der RAM defekt wäre, müsste memtest dann nicht einen Fehler ausspucken? Oder wieso laufen Werkseinstellungen, OC, dass ein Jahr lang stabil lief, aber plötzlich nicht mehr? Ich lasse gerade nochmals mdsched laufen, diesmal nachdem ich nach einem CMOS clear BIOS F32 installiert habe, nochmals einen CMOS reset gemacht habe und erst dann die optimised settings geladen habe und noch folgende Änderungen vorgenommen haben: CPPC (preferred cores) aktiviert, global C-States aktiviert und SVM mode ebenfalls aktiviert. Alles andere habe ich nicht angerührt.

Mögliche Defekte/Probleme:
  • RAM
    • OC
      • Windows meldet Speicherfehler in Bluescreens
      • mdsched meldet sofort Fehler
    • Default
      • keine Fehler mehr
  • Grafikkarte
    • Schneeflocken bei nur einem Bildschirm / Probleme beim Kaltstart mit 2 Bildschirmen
  • Mainboard
    • Andere User berichten von ähnlichen Kaltstartproblemen, die mit CPU Spannungssettings behoben wurden
    • Vielleicht doch above 4G encoding in Zusammenspiel mit defektem(?) VRAM der GraKa und übertaktetem RAM
Nun weiss ich nicht so recht, wie ich fortfahren soll. Wenn mdsched mit den oben genannten Settings keine Fehler mehr meldet, würde ich wohl auf OC verzichten. Aber es ist komisch, dass die Probleme so plötzlich auftauchten, ohne, dass ich etwas an den RAM Settings geändert habe. Wäre das BIOS Update schuld, wären doch sofort Probleme aufgetreten und nicht Tage/Wochen-lang keine und dann plötzlich massive, die das System unbenutzbar machen?!

Meine ursprüngliche Vermutung von wegen RAID und Kernel ist nun hinfällig, da die Speicherprobleme auch auf Windows auftreten. Dafür kamen jetzt die Kaltstartprobleme mit der GraKa zum Vorschein.

Kann ich irgendwie verlässlich auf Defekte testen? RAM / GraKa / Mainboard? Ersetzen kann ich spontan kein Bauteil, da ich nichts passendes zur Hand habe. :/
Oder kann am Ende doch der neue Bildschirm auslöser allen Übels sein, ohne, dass er selbst von Bildfehlern oder ähnlichem betroffen wäre?

Danke fürs Durchlesen und allfällig hilfreiche Gedanken dazu. :)
 
Das mit den Bildschirmen kenne ich, da liegt auf einer Signalleitung Spannung an die da nicht sein dürfte. Das mag dann weder Grafikkarte noch Board ;)
 
Und kennst du dafür allenfalls auch gleich eine Lösung?
 
Ist das bei OC nicht genau die Gefahr? Das Komponenten die im OC betrieben werden nicht sofort "explodieren" sondern über längere Zeit degenerieren.
Daher würde ich spontan auf OC verzichten, das aktuellste BIOS installieren und mit den Defaults weitermachen.

Das Problem mit den Monitoren würde ich erstmal getrennt betrachten, vielleicht an einem 2.PC testen, Kabel tauschen und generell den festen Sitz der Anschlüsse und GPU prüfen.

*edit*
Hab grad noch gesehen das es von dem Mobo verschiedene Revisionen gibt (1.0/1.1/1.2), evtl. unterscheidet sich da auch das BIOS?
 
Zuletzt bearbeitet:
Und kennst du dafür allenfalls auch gleich eine Lösung?

Naja schlussendlich den Bildschirm entsorgen bzw. bei Garantie noch tauschen lassen.
Klar kannst du den auch immer für einen Kaltstart abkabeln aber das ist ja keine schöne Lösung und wenn wirklich Spannung auf einem Signalpin liegt wird das die Grafikkarte auch nicht ewig mitmachen vemute ich.
 
Allerdings habe ich auch dann Bildfehler, wenn ich nur den Dell anschliesse. Sprich, egal welcher Bildschirm angeschlossen ist, wenn es nur einer ist gibt es Fehler. Also würde ich eher auf die GraKa tippen. :/
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh