Boot nur noch mit einem Arbeitsspeichermodul – Mainboarddefekt?

2Stoned

Enthusiast
Thread Starter
Mitglied seit
15.12.2006
Beiträge
305
Ort
Erde
Ich hatte schon in der Vergangenheit wiederholt das Problem, dass mein Computer nicht mehr starten wollte. Die Lüfter liefen alle auf Hochtouren, doch Tastatur, Maus und Bildschirme blieben aus. Auf dem Mainboard leuchtete die rote DRAM-Lampe. Beim ersten Mal vor 2~3 Jahren habe ich das Problem behoben, indem ich alle RAM-Module einzeln mit memtest getestet habe, keine Fehler feststellen konnte, alle wieder eingebaut habe, und dann lief die Kiste auf einmal wieder. Beim zweiten Mal, vor etwa einem halben Jahr, half es schon nicht mehr, die Module nur neu einzusetzen, sondern ich musste das RAM-OC deaktivieren. Nun stehe ich wieder vor dem gleichen Problem. Dieses Mal ging der Computer mitten im Betrieb aus. Als ich getestet habe, ob ich die Module einfach aus- und wieder einbauen kann, lief der PC mal kurz mit vier Modulen, dann wollten nur noch drei, und jetzt läuft gar nur eines.
Ich werde indessen sicher jeweils über Nacht mit je einem Modul Memtest laufen lassen und dann jeweils am Morgen das nächste Modul einbauen und den Tag hindurch damit arbeiten, um zu schauen, ob der RAM auch in Ordnung ist. Ich habe jedoch eher den Verdacht, dass es am Mainboard liegt. Einen Ersatz dafür habe ich aber keinen.
Wäre bei meinen verbauten Komponenten irgendetwas bekannt, dass diese momentan, nach ein paar Jahren, abserbeln?
Was könnte ich tun, um andere Fehlerquellen auszuschließen? Oder gibt es einen soliden Mainboard-Test à la memtest? Maintest? Mothertest?
Ich danke für euren Input zu dieser Miesere.

PS: System ist folgendes
CPUAMD Ryzen 3950X
MainboardGigabyte X570 Aorus Ultra
RAMSamsung M391A2K43BB1-CTD 4x 16GB, DDR4-2666, ECC
GPUEVGA RTX 3060 12GB
PCIeDELOCK 20 Gbps USB-C 3.2 2x2 PCIe-Karte mit ASM3242 Chip
Speicher3 NVMe SSDs (2x 1 Tb Samsung 970 Evo Plus (NVMe) und 1x ADAT XPG GAMMIX)
NTFractal Ion+ Plantinum 560 Watt
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Unterdessen konnte ich alle Arbeitsspeichermodule wieder einbauen und die Kiste lief für 2 Tage. Heute ist mir der PC aber schon dreimal abgeschmiert. Einmal nur die Benutzeroberfläche, zweimal kam es aber zum Neustart. Beim letzten Neustart hatte ich die folgende Meldung eines Hardwarefehlers:

Bash:
Uncorrected, software containable error.
CPU: 7 (17:71:0) MC0_STAUTS[-IUE|MiscV|AddrV|-|-
|-|UECC|-|Poison|-]: 0xbc002800000c0135
Error Addr: 0x0000000167a26580
IPID: 0x000000b000000000
Load Store Unit Ext. Error Code: 12
cache level: L1, tx: DATA, mem-tx: DRD

Was kann ich daraus ableiten?
 
Hast du auch den Curve Optimizer laufen? Mach den mal aus.
C-State und PBO auch mal versuchsweise aus machen.
 
Es könnte auch ne wackelige kalte Lötstelle unter dem CPU Sockel sein und wie entsteht sowas? Zum Beispiel bei der Kühlermontage
zu fest angezogen, muß nicht heute gewesen sein, kann auch in der Vergangenheit bei unachtsamen auf/ab montieren passiert sein dass
da mal die Montage-Schrauben nicht optimal angezogen wurden.
Was helfen kann! Einen besseren Metall-Bügel kaufen um den CPU-Sockel die Mainboard-Rückseite stabiler zu halten bei der CPU-Kühler Montage,
sodass kein Bauch entsteht und so alle Pins im Sockel einen gleichmäßigen Anpressdruck haben.
 
Hast du auch den Curve Optimizer laufen? Mach den mal aus.
C-State und PBO auch mal versuchsweise aus machen.
Danke für den Input! Den Curve Optimizer nutze ich nicht (ist, glaube ich, nur für Windows verfügbar). PBO und C-State werde ich mal ausschalten. Kann ich im Anschluss etwas konkretes testen, oder einfach schauen, ob keine weiteren zufälligen Abstürze mehr auftreten?
 
Der Noctua NH-D15 scheint mir eigentlich schon daraufhin designt zu sein, dass da ein gleichmäßiger Anpressdruck vorherrscht. Das ist aber ein Top-Hinweis von dir, und ich werde den Kühler vielleicht einfach mal 180º gedreht einbauen. Habe das System jetzt schon einige Jahre im Einsatz, Wärmeleitpaste habe ich aber letzten Sommer mal erneuert, vielleicht war ich da nicht sorgfältig mit den Schrauben. :/
Beitrag automatisch zusammengeführt:

Hervorragend, dann schaue ich, dass ich diesen mal deaktiviere. Der bedingt aber, glaube ich, eh PBO 2.0, wenn ich das also deaktiviere, sollte der auch aus sein.
 
Ich kann leider nicht testen, ob PBO zu deaktivieren etwas bringt: Sobald ich RAM im Dual-Channel-Betrieb einbaue, startet die Kiste nicht mehr. Ich weiss nicht ob es einfach Glückssache ist, ob die Kiste zum BIOS kommt oder nicht, sobald eine Dual-Channel-Konfiguration eingebaut ist, denn kürzlich konnte ich ja noch mit vier Modulen starten, wobei es dann zum oben-genannte Fehler kam.
Zwei Module im Single-Channel-Betrieb laufen auch mit PBO bisher ohne Probleme.
Die vier Module habe ich mit Memtest86 getestet, zweimal je nur ein einzelnes Modul, und einmal zwei Module in der Single-Channel-Konfiguration (die zwei der CPU am nächsten gelegenen RAM-Slots), wobei kein einziger Fehler aufgetreten ist.
Kann ich den Arbeitsspeicher als Fehlerquelle ausschließen, wenn Memtest86 nichts findet? Dann blieben wohl noch CPU und Mainboard übrig. Gibt es aussagekräftige CPU-Testprogramme, aus denen sich etwas definitives ableiten liesse?
 
Das Mainboard ist in diesem Sinn nur "dumm", es tut selber nix groß dazu.
Klingt für mich so als ob die CPU (auf der die IMC - memory controller sitzt) einen Schaden hat. Vier Riegel sind sowieso immer harte Arbeit für die IMC und auch bei AM4 war das immer ein wenig Glückspiel ob es läuft.
Wenn du kannst teste vorher eine andere CPU, ist auch weniger Aufwand als das Mainboard zu tauschen.
 
CPU wäre ja noch schlimmer (teurer) zu ersetzen. Eieiei (frohe Ostern). Eine Ersatz-CPU habe ich gerade nicht zur Hand, aber es gibt hier in der Nähe so Computer-Reparier-Geschäfte, zur Not würde ich den PC halt da hinschleppen … Gäbe es vorab noch Software, um ein CPU-Problem von einem Mainboarddefekt abzugrenzen?
Danke für deine fachlichen Einsichten! Top!
 
Zuletzt bearbeitet:
BIOS-Batterie habe ich bisher nicht ersetzt. Das wäre aber wohl leicht zu testen, würde allerdings Abstürze im laufenden Betrieb nicht erklären. Behalte das aber im Hinterkopf und werde auch dies nicht unversucht lassen. Danke für die Idee!
 
Wäre bei meinen verbauten Komponenten irgendetwas bekannt, dass diese momentan, nach ein paar Jahren, abserbeln?
...Was könnte ich tun, um andere Fehlerquellen auszuschließen?
1) Das Fractal Design Ion+ 560W Netzteil könnte defekt sein, oder Stecker haben sich gelöst, das passiert relativ oft, wenn man Netzteilkabel Verlängerungen bzw. Extensions verwendet.
Auf verbrannte stellen an den Netzteilsteckerkontakten achten, das deutet auf einen Wackelkontakt, auch am Netzteil selbst sollten die Stecker bis zum Anschlag eingesteckt sein.
Stecker Problem1.jpg



2) Klebte die Ryzen 9 3950X CPU schonmal am Noctua NH-D15 CPU Kühler, als du CPU Kühler entfernt hast?
Dann könnten auch Kontakte im AM4 Mainboard CPU Sockel oder an der CPU beschädigt sein, Bilder unten.
CPU klebt am Kühler.jpg AM4 Sockel Kontakte verbogen.jpg


3) Es könnte auch ein Problem mit dem Bios sein, wenn du kürzlich ein Bios update gemacht hast.
Dann würde ich das Bios installieren, mit dem der Ram einwandfrei funktioniert hat.


4) Oder das Mainboard hat sich aufgehängt, manchmal reicht ein Bios Reset, oft muss man aber die Mainboard-Batterie mit entfernen beim Bios Reset, damit das aufgehängte Mainboard wieder einwandfrei funktioniert.

Nachdem die CR2032 Batterie raus ist, sofort die Clear CMOS Kontakte für mindestens 10 Sekunden mit einem Stück Metall z.B. Schraubenzieher oder einem Jumper überbrücken, frühstens nach 5 Minuten die Mainboard-Batterie wieder einbauen, das Netzteil sollte bei dieser Aktion vom Strom getrennt sein, auch im Bild unten beschrieben.
CLEAR CMOS Batterie entfernen.jpg



Edit:
Ich habe noch einen anderen Thread von dir gefunden, bei dem du Probleme mit dem Wlan Modul hattest, die Bios Einstellungen wurden nicht gespeichert und das schon bekannte Problem mit dem Ram nachdem du umgezogen bist, Link unten.

Möglicherweise gibt es in deiner neuen Wohnung keine separate Erdungsleitung und eine Klassische Nullung ohne separaten Erdungsleiter wurde durchgeführt, das könnte die Probleme erklären.



Klassische Nullung.jpg
 
Zuletzt bearbeitet:
Die werde ich alle mal durchtesten, schadet bestimmt nichts.
2) Klebte die Ryzen 9 3950X CPU schonmal am Noctua NH-D15 CPU Kühler, als du CPU Kühler entfernt hast?
Das wär tatsächlich schon mal der Fall, aber es ist mindestens ein halbes Jahr her, dass ich die CPU/den Kühler mal ausgebaut habe. Werde aber mal einen Blick wagen!
Nein, bin jetzt schon relativ lange auf F37 und mittlerweile wäre F39 aktuell.
Tatsächlich resetted sich das BIOS sobald der Strom weg ist. Das ist jetzt schon seit Jahren so...
Möglicherweise gibt es in deiner neuen Wohnung keine separate Erdungsleitung und eine Klassische Nullung ohne separaten Erdungsleiter wurde durchgeführt
Gäbe es denn eine Möglichkeit das zu überprüfen? Woran würde ich dies erkennen?

Tausend Dank für die vielen Ideen und dein Recherchieren, grandios!
Beitrag automatisch zusammengeführt:

Ich tippe, wie zog88, auf den IMC. Irgend eine andere AM4-CPU zum quer testen in Reichweite?
Leider eben gar nicht. Per Software könnte ich das nicht allenfalls eingrenzen, z. B. irgend ein Stresstest / Benchmark, der dies eindeutig machen würde? Zur Not habe ich auch noch eine Windows-Partition für sowas. :d
 
Nein, bin jetzt schon relativ lange auf F37 und mittlerweile wäre F39 aktuell.

Bios F37 gibt es nicht mehr auf der Gigabyte Webseite zum Downloaden, wahrscheinlich wurde das Bios F37 wegen Problemen entfernt.

Dann würde ich beim Bios anfangen und F39 installieren, den PC vor dem Bios update einmal per Clear CMOS zurücksetzen, der PC sollte dabei vom Strom getrennt sein.
Wenn du ins Bios gehst als erstes die UEFI defaults laden, dann erst das Bios update Per USB-Stick im FAT32 Format und dem Flash Tool (Q-Flash Taste F8) installieren.

Du kannst auch Q-Flash Plus verwenden, damit lässt sich das Bios ohne PC Hardware nur mit Netzteil und USB Stick im FAT32 Format installieren.
Bios.jpgCLEAR CMOS Batterie entfernen.jpg

Q-Flash Plus.jpg



Tatsächlich resetted sich das BIOS sobald der Strom weg ist. Das ist jetzt schon seit Jahren so...
Datum und Uhrzeit bleibt aber erhalten, nur die UEFI default Werte werden im Bios geladen?
Die CR2032 Batterie hattest du gewechselt, wie im anderen Thread erwähnt?


Das wär tatsächlich schon mal der Fall, aber es ist mindestens ein halbes Jahr her...
Wenn davor keine Ram Probleme vorhanden waren, dann war die CPU die am CPU Kühler klebte, wahrscheinlich für verbogene Kontakte am AM4 Mainboard CPU Sockel verantwortlich.
Auf dem AM4 CPU-Sockel ist eine Plastik Abdeckung, so wie auf meinem Bild in Post 13 sieht das ohne die Plastik Abdeckung aus.

Wenn die Plastikabdeckung noch auf dem Sockel ist, sollte in jedem kleinen Loch zwei Messingpunkte zu sehen sein.

Edit:
Auf die Mainboard-Revision achten, die steht auf dem Mainboard normalerweise unten links, möglicherweise sind die Bios Versionen zwischen 1.0 und 1.1 / 1.2 unterschiedlich.
Revision.jpg
 
Zuletzt bearbeitet:
Boot war nun wieder einmal mit allen 4 Riegeln erfolgreich. Davor habe ich Folgendes gemacht:
  1. GPU ausgebaut
  2. Delock USB-C PCIe-Adapter-Karte ausgebaut
  3. Noctua CPU-Kühler abgebaut
  4. CPU rausgenommen, gesehen, dass alle Pins perfekt gerade stehen
  5. CPU wieder eingebaut
  6. BIOS-Reset-Pins kurzgeschlossen
  7. An allen Stromsteckern gerüttelt
  8. BIOS-Batterie herausgenommen und wieder eingesetzt
  9. Noctua-CPU-Kühler 180º gedreht eingebaut
  10. Schrauben angezogen (es sind so Schrauben mit Federn, die sich anziehen lassen bis zu einem vordefinierten Punkt und sich dann nicht mehr weiterdrehen lassen)
  11. RAM eingebaut
  12. GPU eingebaut
  13. Gestartet und 'Global C-States' und PBO disabled.
Ein BIOS-Update habe ich jetzt noch keines gemacht. Ich habe aber gesehen, dass ich bereits auf F38 bin, nicht wie vorab angegeben auf F37. F38 ist noch online. Habe ein Revision-1.0-Mainboard.
Jetzt bin ich gespannt, ob das System wieder für eine Weile läuft, oder ob es bald wieder zum Absturz kommt. Ich werde sicherlich häufiger meinen Arbeitsfortschritt speichern als sonst. :fresse:
 
Toi, toi, toi! Wenn ich so lese was du alles angestellt hast - ich hatte tatsächlich mal ein Problemchen mit zu hohen Anpressdruck und AM4. Aber da ging gar nichts mehr. Wenn's wieder zickt vielleicht mal eine Viertel bis halbe Umdrehung retour beim CPU-Kühler. Man weiß ja nie - the devil lives in the details.
 
Die vier Module habe ich mit Memtest86 getestet, zweimal je nur ein einzelnes Modul, und einmal zwei Module in der Single-Channel-Konfiguration (die zwei der CPU am nächsten gelegenen RAM-Slots), wobei kein einziger Fehler aufgetreten ist.
Kann ich den Arbeitsspeicher als Fehlerquelle ausschließen, wenn Memtest86 nichts findet?
Ja, wobei man normalerweise immer erst mit allen Riegeln testet und den BIOS Einstellungen wie es hinterher auch laufen soll und nur wenn es dann dabei Fehler gibt, dann testet man mit weniger scharfen Einstellungen oder eben die Riegel einzeln. Es kann durchaus vorkommen, dass die RAM Riegel jeder für sich in Ordnung sind, aber eben mit den Einstellungen doch nicht fehlerfrei zusammen arbeiten und dann nutzt es nicht, wenn man sie nur einzeln getestet hat, außer dass man dann eben weiß, dass es nicht an den Riegeln, sondern der Einstellungen oder sonst etwas liegt.

Gibt es aussagekräftige CPU-Testprogramme, aus denen sich etwas definitives ableiten liesse?
Mit wäre keine bekannt mit dem man einschränken könnte, ob so ein Fehler an der CPU oder dem Board liegt.

Das Mainboard ist in diesem Sinn nur "dumm", es tut selber nix groß dazu.
Das stimmt so auch nicht, es kann schon die Fehlerursache sein, etwa wenn die Kontakten problematisch sind, korrodiert oder verbogen.

Nachdem es jetzt nach dem Auseinander- und wieder Zusammenbau funktioniert, würde ich auf ermüdete Federkraft oder korrodierte Kontakte tippen. Da die RAM Riegel ja schon vorher mal herausgenommen und wieder eingesetzt wurde, dürfte das Problem eher nicht dort liegen, sondern wohl eher im CPU Sockel. Das es am Netzteil(kontakt) lag, glaube ich eher weniger, da ja nur ein RAM Channel betroffen war und die RAM Slots wohl kaum getrennte Spannungsversorgungen haben dürften.
 
Boot war nun wieder einmal mit allen 4 Riegeln erfolgreich. Davor habe ich Folgendes gemacht:
  1. GPU ausgebaut
  2. Delock USB-C PCIe-Adapter-Karte ausgebaut
  3. Noctua CPU-Kühler abgebaut
  4. CPU rausgenommen, gesehen, dass alle Pins perfekt gerade stehen
  5. CPU wieder eingebaut
  6. BIOS-Reset-Pins kurzgeschlossen
  7. An allen Stromsteckern gerüttelt
  8. BIOS-Batterie herausgenommen und wieder eingesetzt
  9. Noctua-CPU-Kühler 180º gedreht eingebaut
  10. Schrauben angezogen (es sind so Schrauben mit Federn, die sich anziehen lassen bis zu einem vordefinierten Punkt und sich dann nicht mehr weiterdrehen lassen)
  11. RAM eingebaut
  12. GPU eingebaut
  13. Gestartet und 'Global C-States' und PBO disabled.
Davon hätte ich erstmal Position 8 und 6 gemacht, wie in meinem Post 16 in der Anleitung mit Bild beschrieben, oft hat sich das Problem dann erledigt, weil sich das Mainboard aufgehängt hatte.
 
Toi, toi, toi! [. . .] Wenn's wieder zickt vielleicht mal eine Viertel bis halbe Umdrehung retour beim CPU-Kühler.
Danke! :xmas: Falls es wieder auftritt werde ich bei der CPU beginnen, nicht mehr beim RAM. :P
Ja, wobei man normalerweise immer erst mit allen Riegeln testet und den BIOS Einstellungen wie es hinterher auch laufen soll
Da alle zusammen nicht booten wollten, single-channel aber lief, wollte ich zunächst mal einen Arbeitsspeicherdefekt ausschließen. Bleiben mir aber immer noch CPU und Mainboard als mögliche Ursachen, insbesondere da es seit dem Auseinandernehmen wieder läuft. Eine komische Sache ist das.
Davon hätte ich erstmal Position 8 und 6 gemacht, wie in meinem Post 16 in der Anleitung mit Bild beschrieben, oft hat sich das Problem dann erledigt, weil sich das Mainboard aufgehängt hatte.
Irgendwann wollte ich das Problem dann auch einfach gelöst haben, und das ging ja alles in einem. GPU musste ich eh ausbauen, um an die Batterie zu kommen, und die CPU wollte ich wirklich mal sehen. Ich war dann erleichtert, zu sehen, dass da alles sauber aussieht.

Bisher sind zwar keine Probleme mehr aufgetreten, ich bin aber immer noch etwas skeptisch und trau' der Sache noch nicht ganz. :fresse:

Danke ich allen für die tollen sachdienlichen Hinweise. Ich bin froh, läuft die Kiste (zumindest für den Moment) wieder.
 
Da alle zusammen nicht booten wollten, single-channel aber lief, wollte ich zunächst mal einen Arbeitsspeicherdefekt ausschließen.
Deswegen schrieb ich ja auch normalerweise, falls jemand diesen Thread später mal liest. Mit allen Riegel und den finalen BIOS Einstellung sollte man anfangen, wenn dies möglich ist und auf jeden Fall auch am Ende, wenn die Probleme behoben sind, auch noch letztlich testen, um eben sicher zu sein, dass es dann auch so fehlerfrei läuft, wie es nachher eben im Betrieb sein wird. Selbstverständlich sollte man auf eine Änderung der Einstellungen mit irgendwelchen OC Tools unter Windows verzichten, da man dann eben nicht mehr weiß, ob das RAM auch mit den so veränderten Einstellungen noch fehlerfrei läuft.
 
Seither habe ich nur den Eindruck, dass ein konstantes Spulenfiepen auftritt, solange der Computer eingeschaltet ist. :unsure::poop::coffee2:🙈
 
Das ist also ein neues Problem? Auch bei niedriger Last / im Leerlauf?
Kannst es auf eine Komponente eingrenzen oder ist es nur so ein "Gefühl"?
Prüfe mal alle Steckverbindungen der Stromkabel speziell auf Mainboard und Grafikkarte, auch auf der Netzteil-Seite.
Grafikkarte steckt fest im PCIe Steckplatz? Verriegelung ist gut eingerastet?
 
Das ist also ein neues Problem? Auch bei niedriger Last / im Leerlauf?
Das ist ein neues Problem, seit dem Auseinander- und wieder Zusammenbauen, welches auch im Leerlauf auftritt.
Kannst es auf eine Komponente eingrenzen oder ist es nur so ein "Gefühl"?
Ist ziemlich hochfrequent, wohl an meiner Hörgrenze, so dass ich es nicht eindeutig zuordnen kann.
Prüfe mal alle Steckverbindungen der Stromkabel speziell auf Mainboard und Grafikkarte, auch auf der Netzteil-Seite.
Grafikkarte steckt fest im PCIe Steckplatz? Verriegelung ist gut eingerastet?
Kabel werde ich allesamt nochmals testen und durchrütteln. Die GraKa ist eigentlich nie gut eingerastet, hat aber immer funktioniert.
 
Fiepen kann viele Ursachen haben, vom Netzteil über das Mainboard, aber auch SSDs hatten das Problem schon, wie z.B. die Samsung 850 PRO, wo Pads über den NAND Chips dann Abhilfe geschaffen haben, weil da wohl die NAND Dies im Package wohl die Ursache waren. Grakas kommen natürlich auch in Frage, da wird ja auch die Spannung von 12V auf die Spannungen der GPU und der RAMs gesenkt. Die Ursache einzugrenzen ohne alle möglichen Komponenten der Reihe nach zu tauschen um zu sehen ob es dann verschwindet oder des ggf. mit einem mobilen Mikrophone eingrenzen zu können, ist extrem schwer. Es kann mit dem vorherigen Problem und der Maßnahmen diese zu beheben zu tun haben, aber auch einfach Zufall sein und der Alterung von Komponenten geschuldet sein.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh