Asrock Rack x470d4u - Start nach Crash erst nach Stromtrennung

Supaman

Urgestein
Thread Starter
Mitglied seit
10.06.2007
Beiträge
1.991
Ort
Dortmund
Hiho,

ich habe hier einen sehr merkwürdigen Effekt:

Proxmox Host mit Asrock Rack x470d4u, AMD Ryzen5 3600 und redundantem NT FSP Twins Pro 500W.
Der Server hängt sich sporadisch mal weg und geht dann aus.
Per IPMI kommt man noch drauf, aber er lässt sich nicht mehr Einschalten... PowerOn, Reset... kein Effekt.
Erst wenn man für 30 sec beide Stromkabel vom NT abgesteckt und wieder eingesteckt hat, bootet der Server.

Es kann durch was auch immer vorkommen, das ein System crash und rebootet, in einem gewissen Umfang ist das "normal" weil IT nicht fehlerfrei st.
Was ich daran nicht verstehe, ist das der Server erst nach vollständiger Stromtrennung wieder bootet.

Die Häufigkeit: unterschiedlich - mal läuft der ein paar Monate durch, und mal tritt das nach 2 Wochen oder ein paar Tagen auf.

Auslöser: bisher habe ich kein Muster erkennen können, die normale Last liegt bei 10-20%, große Lastspitzen gibt es nicht.
Temperaturen sind auch alle im grünen Bereich.
In den Logs vom PVE habe ich nichts aufschlussreiches gefunden.

Das NT habe ich schon gegen ein anders getauscht, daran liegt es nicht.

Irgendwelche Ideen ?
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Mir ist schon RAM auf so einem (ähnlichen) Board kaputt gegangen. Ohne problematischen RAM auch keinerlei Abstürze. Ob das jetzt irgendwas erklärt, sei mal dahin gestellt. Also ob ein IPMI Reset sich von einem Reset am Gehäuseschalter physikalisch unterscheidet, ich weiß es nicht.
 
ECC sollte ja irgendwas melden (ich denke, das Ding hat ECC?), aber vllt. trotzdem eine Runde Memtest drehen? Ist das nicht sogar im Proxmox Bootloader drin?
Test CPU da? 5655G ist gerade "günstig" (130€ ca.) zu bekommen (und ne schön sparsame CPU), wobei ich nicht weiss, obs daran liegt.

Wenns Board is, isses natürlich blöd. Aber wenn man mal NT, RAM und CPU duruch hat, bleibt ja sonst nix mehr über.
 
Die ursächliche Komponente einzukreisen durch Stückweisen Austausch ist bekannt, irgendwann hat man alles durch getauscht, das nichts mehr übrig bleibt. In diesem Fall sehr zeitaufwändig, da der Server wie gesagt auch mal paar Monate ohne Zicken durch läuft.

Was ich gerne verstehen würde: warum startet die Büchse erst nach vollständiger Stromtrrennung? (Und läuift danach erstmal wieder)
Selbst wenn das Ding durch einen Speicherfehler abgestürzt ist - dann bootet die wieder, sebst wenn es direkt den nächsten crash geben sollte.
 
Zuletzt bearbeitet:
Etwas weiter hergeholt - SSD als OS-Datenträger und ggf. Defekt? T
 
Was ich gerne verstehen würde: warum startet die Büchse erst nach vollständiger Stromtrrennung? (Unläuift danach erstmal wider)
Weil die Dinger ja nie wirklich "aus" sind, Standbyspannung und so.
Was da nun Spannung behält, gute Frage. Aber sowas wie Wake on LAN / Mouse / etc. z.B. muss ja funktionieren.

Wenn da nun irgend ne harte Abschaltung getrigger wird, kanns schon sein, dass es in dem Zustand bleibt, bis die Versorgungsspannung ganz weg ist.


Hatte das imho auch schon in den letzten 25 Jahren, kann dir aber nicht mehr sagen, was da tatsächlich das Problem war.
Etwas weiter hergeholt - SSD als OS-Datenträger und ggf. Defekt? T
Mh, oder allgemein irgend ein PCIe Gerät?
Wilde Adapter?
 
Weil die Dinger ja nie wirklich "aus" sind, Standbyspannung und so.
Was da nun Spannung behält, gute Frage. Aber sowas wie Wake on LAN / Mouse / etc. z.B. muss ja funktionieren.
Schon klar, insbesondere Boards mit IPMI sind da noch mal ganz anders drauf: da kommt man i.d.r auch ohne CPU und Ram (!) ins IPMI und kann z.B. Bios updates machen.
Und normalerweise auch "PowerOn" ...

Ansonsten ist nichts besonderes verbaut: 2x Sata SSD, 1x m2 ss2, 1x Intel x710 Quad-NIC SPF+, 1x PCIe Steckkarte für eine u2 SSD.
Mit identischer Bestückung habe ich noch 2 Hosts, alles gleiche Hardware, identische Firmware stände.
 
Ich meine mich dunkel zu erinnern, dass ich ein ähnliches Fehlerbild mit einer defekten Samsung SSD hatte. Allerdings war die dann zu gar nichts mehr zu gebrauchen, tauchte zwar noch im OS auf, aber ließ sich nicht mehr ansprechen und der Pool mit ihr drin war dann auch sehr schnell immer wieder degraded.

Insofern ging meine Frage oben nach der OS SSD eher in die falsche Richtung.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh