[PROBLEM GELÖST] - HILFE - LSI 9260-4i RAID-5 --> DEGRADED !!! Was nun?

bogomil22

Enthusiast
Thread Starter
Mitglied seit
16.07.2010
Beiträge
380
Ort
Berlin
Hallo,
vor etwa 10min ist es passiert. Mein RAID5 ist Degraded. :(
Habe zur zeit 3x 3TB WD30EZRX. (LSI 9260-4i)
Eine ist jetzt ausgefallen als ich gerade einen Film (etwa 4GB groß) über NTFS-Freigabe raufkopiert habe.
Bis jetzt lief eigentlich alles Problemlos (mehrere Monate).
Ich tippe/hoffe auf einen TLER-Fehler, sodass die Platte nicht kaputt ist,
sondern der LSI Controller die Platte nur rausgemissen hat.
Habe den Server jetzt erstmal heruntergefahren!
Und natürlich sind nicht alle Daten auf dem Server extern gesichert, sodass ich ein wenig panik habe :) (die wichtigsten Daten aber schon)

Bevor ich irgendetwas mache wollte ich mal hier fragen.
Da der Server aber auch als Mail-Server dient darf er nicht lange offline bleiben.

Ich würde so vorgehen:
  • Platte raus
  • An den Desktop-Rechner anschließen, CHKDSK drüber und formatieren
  • Wenn Platte ok, dann wieder in den Server und rebuilden lassen


1) Ist das Vorgehen das beste oder was schlagt ihr vor?

2) Was genau passiert bei einem Rebuild? Mit den aktuellen 2 funktionstüchtigen Platten kann ich ja noch auf die Daten rauf
(auch während des rebuilds) -> Heisst: Die Daten gehen nicht verloren und während des Rebuild schreibt er NUR die Party-Daten
auf die neu-eingesetzte Platte?
Wenn ja würde er ja "nur" 3 TB schreiben was ja viel schneller gehen würde als die kompletten 3x3TB neu zubeschreiben
(Mir ist klar, dass während des rebuild ein weiterer Lese-Fehler auf den 2 guten Platten passieren kann und alles Futsch ist)

3) Theoretische Frage: Da ich sowieso mein Raid5 erweitern will und hier schon länger eine weitere 3TB rumliegen habe,
könnte ich in diesem Zusammenhang gleich auch das RAID erweitern und rebuilden? Oder keine gute idee?

4) Ist es vielleicht möglich (vorrausgesetzt die Platte ist nicht kaputt und der Controller hat die Platte einfach rausgemissen)
die Platte ohne ein Rebuild wieder als "in Ordnung" zu markieren ohne ein komplettes Rebuild zu machen? Klar wären die Daten wo es den Lese-Fehler gab weg, aber das wäre mir auch egal. Würde dann einfach Consistency Check und Patol Read sowie NTFS-Fehler-Check machen und alles wäre ok^^

Danke für eure Hilfe
 
Zuletzt bearbeitet:
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Dein Controller sollte bei nur einem defekten Sektor so intelligent sein diesen neu zuzuweisen und die Daten mittels der Parity wieder herzustellen.
Einen Rechner einfach so herunter zu fahren ohne irgendwelche Log-Dateien zu lesen oder auf einem anderen Rechner zu sichern ist sehr, erm ... riskant.

Das beste dürfte sein den Rechner erst einmal wieder einzuschalten und zu schauen aus welchem Grund welcher Fehler gemeldet wurde.
Sollte die HDD gar nicht mehr ansprechbar sein, mach zuerst mal einen kurzen und langen S.M.A.R.T. Selbsttest der verbliebenen zwei HDDs bevor du einen Rebuild mit einer neuen HDD versuchst.
 
Hier mal ein Foto der Log.
Habe jetzt hochgefahren und versuche irgendwo im LSI MegaRaidManager die Smart-Werte auszulesen.
Ich habe nur die werte gefunden: Media Error Count:0, Other Error Count:0, Predictive Failure Count:0

Foto 11.11.12 08 42 02.jpg

Die Platte wird als "Failed" angegeben und laut LSI steht bei Drive status -> Failed "A drive that was originally configured as Online or Hot Spare, but on which the firmware detects an unrecoverable error."

Ich kann unter dem LSI MGM die Platte einfach wieder als "online" markieren, dann Conistency Check & patrol Read drüber. Aber das wäre keine gute Idee oder?
 
Zuletzt bearbeitet:
Hi,

ich würd mich nicht trauen die normalen Green Power Platten im Raid zu nutzen, ich hatte ja schon mit meinen Raid Editionen Probleme, so das ich auf eine neuere Firmware angewiesen bin.

Hast Du nen richtigen Stress Test vorher gefahren? Bei mir ist eine immer rausgeflogen dabei.

Ich persönlich würd schnell ne Ersatzplatte besorgen und die rausgeflogene mit dem WD Tool am lokalen Anschluss testen.

Grüße
 
Ich sehe leider nur lauter Timeouts vom Controller, aber nicht was der Controller von der HDD genau abfragen will.
Schließe die defekte HDD bei einem anderen Rechner ohne weiterer HDD mal an und lass einen kurzen Selbsttest drüber laufen und Poste die Ausgabe hier.
Sofern die HDD noch einigermaßen reagiert, kannst du ja mit dd_rescue eine 1:1 Kopie der HDD auf eine neue machen. Defekte Sektoren die nicht mehr lesbar sind werden dabei übersprungen. Ggf. kannst du diese neue HDD dann deinem Raidcontroller unterschieben welcher dann nur noch die benötigten Sektoren der beiden verbliebenen HDDs auf die neue HDD kopieren muss.
Beide Tools - smartctl und dd_rescue gibt es auf gängigen Rescue-CDs.
 
Hi,

ich würd mich nicht trauen die normalen Green Power Platten im Raid zu nutzen, ich hatte ja schon mit meinen Raid Editionen Probleme, so das ich auf eine neuere Firmware angewiesen bin.

Hast Du nen richtigen Stress Test vorher gefahren? Bei mir ist eine immer rausgeflogen dabei.

Ich persönlich würd schnell ne Ersatzplatte besorgen und die rausgeflogene mit dem WD Tool am lokalen Anschluss testen.

Grüße


wie gesagt bisher hatte ich eine sehr lange zeit keine Probleme mit den Platten. Habe auch die neuen LSI Treiber und Firmware drauf.



Ich sehe leider nur lauter Timeouts vom Controller, aber nicht was der Controller von der HDD genau abfragen will.
Schließe die defekte HDD bei einem anderen Rechner ohne weiterer HDD mal an und lass einen kurzen Selbsttest drüber laufen und Poste die Ausgabe hier.
Sofern die HDD noch einigermaßen reagiert, kannst du ja mit dd_rescue eine 1:1 Kopie der HDD auf eine neue machen. Defekte Sektoren die nicht mehr lesbar sind werden dabei übersprungen. Ggf. kannst du diese neue HDD dann deinem Raidcontroller unterschieben welcher dann nur noch die benötigten Sektoren der beiden verbliebenen HDDs auf die neue HDD kopieren muss.
Beide Tools - smartctl und dd_rescue gibt es auf gängigen Rescue-CDs.

Ja ich werde die Platte morgen ausgiebig testen. Außerdem werde ich morgen gleich 2 neue Platten holen wo ich ein wirkliches Backup mache (getrennt vom Server).
Wieder Zuhause angekommen werde ich einige Daten vom Server im degraded Raid auf das backup kopieren (hoffe das klappt ohne noch ein Fehler).
Wenn das geschafft ist werde ich die "failed" Platte rausnehmen und erstmal am Desktop rechner gründlich durchtesten.
Ich dachte bei den Tests an SMART-Werte von gänigen Tools auslesen, dann chkdsk (nur Sektoren). -> Alles unter Windows
Sind die Tools von einer Recue-CD besser? Welche Rescure CD kannst du empfelhen?
Wie sieht es mit WD offiziellen Tool aus?
--
Das mit der 1:1 Kopie ist auch ein guter Vorschlag aber ich denke nach der Sicherung mit den neuen Platten werde ich ein richtiges Rebuild machen.
---
Zu der LSI-Log-Datei: Ja das hat mich auch ein wenig verwundert, aber mehr ist doch nicht. Um 18:33 kamen spontan diese Timeouts, der letzte Log-Eintrag vor diesen Timeouts war um 11:00 und hatte nichts mit den Fehlern zu tun. Aber wie gesagt ich hatte gerade was auf den Server kopiert als die Fehler kamen
 
Zuletzt bearbeitet:
wie gesagt bisher hatte ich eine sehr lange zeit keine Probleme mit den Platten. Habe auch die neuen LSI Treiber und Firmware drauf.

Ich musste ein Firmwareupdate auf die Festplatte spielen, nicht den Controller.

Ich nutze immer WinDLG von Western Digital. Die Platte sollte unpartitioniert sein und das Tool muss als Administrator ausgeführt werden.

Grüße
 
Ja WinDLG benutze ich gerade und mache ein SMART Test. Wie soll ich dort die Firmware updaten?

(PS: Laut CrystalDiskInfo sind die SMART Werte schonmal in Ordnung, obwohl die Platte schon 368877 Load-/Unload Cycle bei gerademal ca. 10000 Stunden hat. Aber das ist ja anscheind ein allg. Problem der WD30EZRX mit den Load-Cycles)
 
Bist du dir sicher das der Wert stimmt? 368877 Zyklen / 10000 Betriebsstunden sind ~37x Parken je Stunde. Da würde ich das Zeitlimit für das Parken der Köpfe doch etwas hoch schrauben auf ~5-10 Minuten und auf die Stromeinsparung verzichten.
Afaik ist das Maximum bei HDD Herstellern bisher bei "nur" 600k Zyklen.
Bei den gängigen Rescue-CDs wie z.B. RIP -> DistroWatch.com: Put the fun back into computing. Use Linux, BSD. ist auch dd_rescue und testdisk mit dabei, neben Smartmontools.
 
SMART-Werte:

5a0ed = 368877 oder???

SMART.JPG


Wie genau kann ich das Parken auf 5min stellen?
 
Früher schimpfte sich dies APM. Kann ggf. dein Tool von WD auch einstellen in den Stromsparmodi. Es ist Afaik ein 8Bit Wert, also von 0 bis 255. Samsung und Hitachi hatten das ggf. bei ihren Tools auch mit dabei.
 
APM Einstellungen sind default. Also ich denke nicht an.
Ich habe mich mal belesen, es gibt so ein Tool WDidle3 oder so, womit man das Headparking einstellen kann, obwohl die WD30EZRX nicht unter der Kompatibilitätsliste stehen.
Zum 8Bit wert. Weiter rechts steht doch ein Hex-Wert und wenn man diesen umwandelt kommen halt ca. 368000 raus. Das ist doch ein korrekter Anhaltspunkt oder?
---
Naja wie gesagt es gibt Platten mit deutlich mehr und ich denke die Platte wird auch noch ihren dienst tuen, da restliche Teste alle OK waren.
Trotzdem werde ich mir jetzt 2x WD Red WD30EFRX gleich kaufen und bald mein Raid5 austauschen (Weniger Watt, TLER support und kein aggressives Headparking). Bleibt nur noch die Frage ob sie mit dem LSI 9260 kompatibel sind.
 
Zuletzt bearbeitet:
Die 8bit bezogen sich auf APM.
Betreibe die WD HDDs doch bitte noch weiter. Es würde einen schon interessieren, ab wann die Mechanik ausfällt :)
 
Die 8bit bezogen sich auf APM.
Betreibe die WD HDDs doch bitte noch weiter. Es würde einen schon interessieren, ab wann die Mechanik ausfällt :)

Ich werde Sie auch weiter verwenden :)
Bloß nicht mehr im LSI Raid :)
Jetzt lasse ich die WD Greens auch erstmal im Raid, werde gegen Weihnachten alle austauschen.

PS: hier nochmal die smartctl log (habe einen short test gemacht weil ich die Smart-werte schon ausgelesen habe und einen lang-zeit-test mit dem winDLG gemacht habe. Resultat alles noch ok. Sprich ich werde Sie zum rebuild erstmal noch verwenden)

Anhang anzeigen WDC_WD30EZRX-00MMMB0_WD-WCAWZ0584997_2012-11-12.txt

Sie Log ist mMn noch Ok. obwohl er der pre-fail angibt. Oder sollte ich sie nicht mehr zum rebuild benutzen.
(wie gesagt vorher wird erstmal eine Sicherung gemacht, falls was schief geht)

PS: hat jemand schon Erfahrung mit den Wd Red im LSI Raid?
 
Zuletzt bearbeitet:
Nur als Info/Vervollständigung:
Hat alles geklappt. Wenn man immer ein externes Backup von seinem RAID hat ist es gar nicht schlimm. Wenn das Raid degraded ist, einfach die ausgefallene Platte raus (ggf. SMART-Test und wieder rein) oder neue Platte an den LSI-Kontroller anstöpseln, die neue Platte als Hot Spare deklarieren und der LSI Kontroller fängt sofort mit dem Rebuild an. Das ganze hat 8 Stunden bei einer 3TB HDD gedauert. Natürlich waren alle Daten danach noch vorhanden (man kann sogar während des Rebuilds auf die Partition zugreifen).
 
Na, wenn du eh nen Backup hast, könntest du auch einfach die ausgefallene platte nochmal online setzen. In vielen Fällen klappt das ;-)
Im Zweifelsfall geht sie wieder offline... Groß verlieren kannst du ja nicht viel.
 
Na, wenn du eh nen Backup hast, könntest du auch einfach die ausgefallene platte nochmal online setzen. In vielen Fällen klappt das ;-)
Im Zweifelsfall geht sie wieder offline... Groß verlieren kannst du ja nicht viel.

Ja, aber ich wollte die Platte ja auf meinem Desktop-Rechner erst auf Fehler etc prüfen, deswegen musste ich sie rausnehmen.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh