Hardware Probleme mit ZFS

NutellaBr0t

Profi
Thread Starter
Mitglied seit
18.09.2019
Beiträge
15
Ich bin gerade ein bisschen am verzweifeln. Sobald ich bei meinem TrueNas Server ein Scrub starte, steigen mir immer zufällig die Festplatten aus. Verbaute Hardware ist folgende:

- i3 9100
- asus c246 ws
- 64GB ECC RAM
- Corsair sfx 450W Netzteil
- Intertech Gehäuse
- Connect x3 10G Karte
- LSI 9400 16i
- 16x 18TB HDDs, alle in einem Pool
- 2x intel DC 240GB SSD als Boot Drive
- 2x PM9A3 3,84TB als special device, mit m.2 Adaptern angeschlossen
- 3x MX500 in einem seperaten SSD pool

Alle SSDs hängen an dem Onboard Controller und mit denen habe ich keine Probleme, auch die PM9A3 haben keine Probleme gemacht. Wenn ich den Server starte, werden mir alle HDDs angezeigt und der Pool als online angezeigt. Erst sobald ich einen Scrub starte, steigen mir die HDDs aus. Und das sind dann immer irgendwas zwischen 3 und 6. Was ich bisher probiert habe:

- Kabel von der Backplane zum HBA untereinander durchgetauscht
- komplett andere Kabel ausprobiert
- anderen HBA ausprobiert
- PCI Slots durchgetauscht
- Plätze der HDDs durchgetauscht
- RAM getauscht
- CPU getauscht
- Netzteil getauscht
- Testweise auch mal mit einem seperaten Netzteil nur die Backplanes mit Strom versorgt mit einem Adapter zum WaKü befüllen
- SMART Werte der HDDs schauen auch gut aus
- die Backplanes hatte ich im Sommer auf Verdacht bereits eingeschickt, laut Support i.O.
- Testweise auch mal mit Truenas Scale, der aktuellen Beta

Nun bin ich so ziemlich mit meinem Latein am Ende, was ich noch probieren könnte, um das Problem einzugrenzen. Auch habe ich kein Muster an HDDs oder Backplane Plätzen feststellen können. Übergangsweise habe ich auch mal 4 der HDDs nicht über die Backplane angeschlossen, sondern extern via einem Sata Kabel und so hat es funktioniert. Also so, dass pro Backplane nur noch 3 Festplatten angeschlossen waren. Ich habe euch mal noch ein Bild des Servers und von den Fehlermeldungen, welche mir TrueNas ausspuckt angehängt.

Also doch die Backplane? Hat von euch vielleicht noch eine andere Idee oder übersehe ich hier etwas? Besten Dank vorab

Edit: Pool sind 2 Vdevs mit jeweils 8 Platten, z2
 

Anhänge

  • PXL_20240310_115659825.jpg
    PXL_20240310_115659825.jpg
    1,8 MB · Aufrufe: 99
  • PXL_20240311_200158495.jpg
    PXL_20240311_200158495.jpg
    1,7 MB · Aufrufe: 91
Zuletzt bearbeitet:
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Probier mal einen Lüfter auf den LSI 9400 16i zu packen (oder ihn anderweitig zu kühlen).
 
Als ich mit einem anderen HBA getestet habe, war auf diesem auch ein anderer Lüfter installiert. Leider konnte ich auch damit keine Veränderung beobachten.
 
Hast du mal die elektrische Leistungsaufnahme gemessen? 16x Helium-Festplatte unter Volllast sind ja schon 240 Watt. Die PM9A3 kann unter Last mit Sicherheit auch ganz gut was wegmachen. Keine Ahnung, ob du mit sowas auf 450 Watt kommst, aber mein AIC Enclosure für 12 Festplatten SAS-3/4 hat schon 550 Watt Netzteile. Ich weiß nicht ob das mit deinen zwei-Netzteilen-Test so gut funktioniert hat für den Ausschluss.
 
Auch meine Meinung.
Das Netzteil ist eindeutig zu schwach für so ein Setup wenn plötzlich alle Platten auf Vollast laufen.
 
Also erst mal vielen Dank für eure Rückmeldung.
Ja das hatte ich mir auch schon mal gedacht, aber laut meiner Tasmota Steckdose zieht er unter Volllast um die 260W, aber da sehe ich auch keine Spikes.
Oben habe ich auch vergessen zu erwähnen, dass ich auch schon mal das Netzteil gegen mein Ersatznetzteil, ein altes Bequiet 600W getauscht habe. Auch so habe ich keine Verbesserung gemerkt. Deshalb habe ich es auch einmal mit beiden versucht, weil ich mir gedacht habe, mit ca 1000W sollte ich das ausschließen können und 600W alleine für die Festplatten sollten reichen. Allerdings benutze ich auch ein paar Adapter, um genug Molex Stecker und Sata Stecker zu haben. Das spielt da bestimmt auch noch mit rein.
Aber ich versuche dann trotzdem mir mal ein Ersatznetzteil zu organisieren, um das doch noch einmal final testen zu können.
 
* gelöscht *

Oh sorry zu spät gesehen Du nutzt ja eine Backplane dann fällt ja das mit vielen Y-Stromkabeln eigentlich weg - sieht ja super sauber aus für 16 HDDs! Beim mien Servern mit sher vielen HDDs waren es halt immer zu 90% die Y-Kabel egal ob Molex -> x-fach Molex oder SATA->x-fach SATA - meist habe ich die am Ende abgeschnippelt und dann gelötet.

Entscheidend ist halt die Watt Zahl auf der 12V Schiene des Netzteils - die ist ja für die Motoren zuständig, musst halt schauen was das Netzteil auf 12V liefert - das ist sicher weniger als die Gesamtleistung. Aber dneke wnen die HDDs anlaufen dann sollten die nicht aussteiegen - das Anlaufen braucht ja sehr viel mehr Strom als dann der Betrieb.

Oder nutzt Du staggering start?

Naja du könntest halt auf jeder Backplane auf 4 HDDs jeweils ein temporäres ZFS machen ohne die anderen zu nutzen und schauen ob jede für sich mit 4 HDDs funktioniert um Fehler der Backplane auzuschliessen.

Hihi 450W ist halt einfach sportlich für das System, da es startet sollte es aber eigentlich locker reichen - vielleicht ist auch irgendwas mit der Thermik, beim Start ist noch alles realtiv kühl, vielleicht verändert sich bei einem Stecker z.B. etwas sobald die Mehrbelastung durch scrubbing thermische Ausdehnung ins Spiel kommt? Also dass sich ein "Y-Stecker" die Buchse minimal ausdehnt und nicht mehr so gut greift auch wenn der Leistungsunterschied durch scrubbing absolut gar nicht so hoch ist.
 
Zuletzt bearbeitet:
welchen Controller hast du sonst noch probiert und welcher Firmwarestand ist da drauf?
Deine Fehlermeldungen erinnern mich an das hier:
 
Auch habe ich kein Muster an HDDs oder Backplane Plätzen feststellen können. Übergangsweise habe ich auch mal 4 der HDDs nicht über die Backplane angeschlossen, sondern extern via einem Sata Kabel und so hat es funktioniert.
Ich hatte einmal die selben Fehlersymptome bei einem Raid-Verbund...... Kein erkennbares HDD Ausfallmuster (bzw. statistisch schwer erkennbares Ausfallmuster).
Fehlerquelle bei mir waren entweder ein/mehrere fehlerhafte Molex-Splitter Kabel und/oder älteres/beschädigtes(?) Netzteil (750W).
Nachdem ich Molex-Kabeln + Netzteil in einem Rutsch getauscht hatte, war das Raid wieder stabil unter 24/7 Dauerbetrieb.

Bei 12V-Multi-Rail PSU's können zu viele angeschlossene Geräte auf einer Schiene auch für zufällige Aussetzer/Ausfälle unter den Geräten sorgen.
Wie sieht Deine rechnerische Netzteil-Auslastung auf der 5V-Schiene und der/den 12V-Schienen aus ?
Ich sehe bei Geizhals z.B. einige 450W-600W Netzteile mit max. 16-18A auf der 5V Schiene ..... bei Deinen 16 HDD's mit geschätzt max. (5V: ~1A , 12V: 0,75A) pro HDD könnte es vielleicht auch bei 5V in Summe eng sein. (Fehlerhafte Kabeln und 12V Belastungsspitzen sind typischerweise aber meistens "Die üblichen Verdächtigen")
 
Zuletzt bearbeitet:
Zumindest meine Server (2x Xeons V3 und 1x Xeon V5) haben das noch, soind aber auch nicht mehr moden :LOL:

So ab 10 Drives denke ich dass das schon noch eigentlich nicht so unpraktisch ist, einfach weil der Übergang stehend => Rotation relativ kräftig an der 12V Schiene kurzzeitig zieht.

Serverboards brauchen doch eh oft vergleichsweise lange zum booten im Vergleich zu Desktopboards - da ist das ja auch dann egal.
 
Also ich habe nun am Wochenende das Netzteil gegen ein anderes getauscht, das jetzige hat nun 850W. Bei der Gelegenheit habe ich auch den Molex Splitter gewechselt, man weiß ja nie. Ich habe auch anstatt wie vorher einen 1 auf 3 Splitter zu benutzen diesmal zwei benutzt, um die Last ein wenig unter den Steckern aufzuteilen. Und siehe da, es hat funktioniert. Es hat recht schnell ein paar Platten resilvered und es schien daraufhin alles wieder gut zu sein.

Jedoch musste ich dann gestern feststellen, dass das Problem doch noch nicht gelöst ist. Jetzt gerade steigen nur noch 4 Platten auf einmal aus, möchte das aber auch nicht wirklich als Verbesserung betiteln. Kann es an dem Netzteil liegen, dass z.B. die 5V oder 12V Schiene nicht ausreichen? Habe hier mal den Link dazu. Laut meiner Tasmota Steckdose war der maximale Verbrauch die letzten Tage um die 200W, sollte also großzügig dimensioniert zu sein. Mich wundert ehrlich gesagt auch, dass das auch mit meinem Test mit den zwei Netzteilen dann nicht funktioniert hat, sollte ja eigentlich keinen Unterschied machen, ob ich die Festplatten extern mit Strom versorge.

Also werde ich als nächtes mal die Frimware des HBAs prüfen. Ich vermute aber, dass ich das ausschließen kann, da auch mein Ersatz HBA keinen Unterschied gemacht hat. Ich denke, als nächstes teste ich die Backplanes mit jeweils 4 Platten um das auch noch auszuschließen.

Und zum Thema staggering start wüsste ich nicht, das jemals in den TrueNas Einstellungen gesehen zu haben.
 
Das ist eine Einstellung der Controller - die Festplatten sollen ja von Anfang an nach dem Start der Rechners nacheinander loslaufen - wenn das Betriebssystem läuft ist es dafür zu spät.

Siehe z.B. hier bei Intel - ich komme aktuell nicht in meine LSI Biose keine Ahnung warum hat glaub was mit UEFI / Legacy zu tun wie die BIOS Erweiterungen geladen werden.


1x eingestellt tut das aber dann egal ob UEFI oder Legacy

Hmm ich habe auch schon 12 HDD systeme mit 450W Netzteil von Sharkoon betrieben :d - denke also das Netzteil - wenn es richtig funktioniert - ist es vermutlich nicht, würde ich zumindest eher mal nach hinten schieben auf der möglichen Problemliste, auch wenn man es nicht komplett ausschliessen kann.

Controller mag sein dass der unter Last aussteigt - vielleicht ein thermisches Problem - auch wenn sowas sicher sehr selten ist auch das ist möglich. Das BIOS glaub ich weniger - einfach wiel das eh in Freebsd und Linux ersetzt wird - deshalb fuinktioniert auch mein LSI mit gelöschtem BIOS genauso problemlos wie meine anderen mit IT Modus Firmware - das macht offensichtlich keinen Unterschied im HBA Modus.
 
Zuletzt bearbeitet:
Also heute hatte ich nochmal Zeit und habe mir den Server nocheinmal angeschaut, dabei ist mir aufgefallen, dass alle 4 Festplatten, welche ausgefallen sind an der untersten Backplane hängen. Also habe ich hier nochmal einen anderen Molex Splitter genommen. Das waren alles Splitter von Aliexpress, gibts das auch irgendwo in gut?

Auch habe ich die Gelegenheit genutzt und die Firmware des HBAs auf die neueste Version die ich finden konnte zu flashen, die 24. Aber Broadcom macht es einem auch nicht einfach die Firmware zu finden.

Aktuell läuft noch ein Scrub durch, aber scheint bis jetzt gut zu laufen, bisher sind mir die Platten immer gleich zu Beginn ausgestiegen. Waren dann wohl doch Netzteil und/oder die Adapter...
 
Hehe jo sicher die Y-Splitter ist oft so. Naja man kann die weibliche Seite halt etwas zusammenbiegen und dann mit Kabelbinder die man so dazwischen fädelt (also jeweils zwischen 2 Kabel links und rechts davon) die Stecker noch fest zusammenziehen das hat bei mir dann immer funktioniert - oder halt löten / bzw wenn man das nicht mag oder will mit WEGA Klemmen z.b.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh