Hetzner: Defektes RAID sorgt für Datenverlust

Im Statement steht, dass zwei Platten *gleichzeitig* ausgefallen sind.

Das an sich ist ungewöhnlich, aber kann passieren, wenn die Platten aus derselben Charge sind.
Wenn die jetzt wirklich innerhalb kürzester Zeit beide ausgefallen sind, ist auch nix mit "AbER dIE müSStEn dOcH eInEn HOtSParE hAbEn!!!!"

Denn den haben sie vermutlich. Und wenn dann beim Rebuild (vmtl. sogar automatisiert der Hotspares) die dritte Platte ausfällt, mutmaßlich selbe Charge und dann getriggert durch die erhöhte Leselast ist das einfach ganz blöd gelaufen.

Standard bei Ceph sind 3 Replikas (oder 3 OSDs / M=3 bei Erasure Code) - Das hat Hetzner gemacht.

Hetzner kommunziert soweit ich weiß im Vorfeld, dass sie keine Garantie auf Datensicherheit geben.
Von daher: Blöd gelaufen. Aber da kann man Hetzner wenig Vorwürfe machen.

Natürlich wäre es sauberer gewesen, für die Replikas verschiedene Hersteller und Chargen zu verwenden, aber der Aufwand das in der Praxis durchzuziehen ist immens.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Es geht eher darum das man kein Backup davon hatte. Und genau das ist es was mich bei Hetzner verwundert. Raid ersetzt kein Backup!
Warum auch Raid 6 und kein Raid 50/60.
 
Zuletzt bearbeitet:
Es geht er darum das man kein Backup davon hatte.
Soweit ich weiß geht es ja 'nur' um ein Volumen mit den Snapshots was ja im Grunde einen 'Backup' entspricht.
Aber es waren keine Live Systeme oder Daten direkt betroffen.

Und das man diesen Speicher für die Snapshots nicht so extrem absichert (über ein zusätzliches Backup) halte ich für vertretbar (sicher bei weiten nicht perfekt).

Natürlich ist ein schönes Dell EMC oder HP 3PAR Storage mit einer ordentlichen Tape Libary dahinter schöner aber damit kann man halt keine Server zu den Hetzner Preisen anbieten.

Im grunde ist es: 'you get what you pay'
 
Es ist unmöglich in einem RAID gleichzeitig zwei defekte Platten zu haben. Sobald die erste defekt wird, wird diese autmatisch vom System abgeschaltet und eine Hotspare Platte übernimmt. In einem modernem RAID aus SSDs dauert das keine 30 Minuten. In dieser Zeit soll also eine zweite und eine dritte Platte/SSD ausgefallen sein?
Das ist doch Quatsch.

Natürlich kann das passieren, sogar wenn man ein raid mit Festplatten verschiedener Hersteller hat - die bekatung nach Ca Jahren ist bei allen gleich. Die Mischung senkt das Risiko, mehr aber auch nicht.

Auch ein raid mit SSDs ist nicht 30 Minuten mit einem rebuild fertig, Ausnahme ist ein RAID 10 unter gewissen Umständen - ein SSD RAID 5 braucht mit laufenden Diensten auch 1 bis 2 tage
 
Das ist doch Quatsch.

Natürlich kann das passieren, sogar wenn man ein raid mit Festplatten verschiedener Hersteller hat - die bekatung nach Ca Jahren ist bei allen gleich. Die Mischung senkt das Risiko, mehr aber auch nicht.

Auch ein raid mit SSDs ist nicht 30 Minuten mit einem rebuild fertig, Ausnahme ist ein RAID 10 unter gewissen Umständen - ein SSD RAID 5 braucht mit laufenden Diensten auch 1 bis 2 tage
Dann richtet ihrt alle euere Raids falsch ein...
Bei einem Raid61 geht das sehr schnell... Ich richte auf einem RAID mit 30 Platten dann 3xRAID61 ein. Und habe dann noch 6 Hot-Spare Platten. Wovon aber 3 nicht eingesteckt sind... So habe ich dann 3 RAID 61 Volumes auf einem NAS.

Aber wie gesagt, das ist ein RAID für 1500 Mitarbeiter und Datensicherheit ist wichtiger als Kosten.

RAID-61_cropped.png
 
Ich habe mein Zeugs bei Strato bzw. bei Space.net und daheim auf einem selbstgebauten NAS.
Achja, Hetzner nutzt doch auch normalen PC Stuff?
 
Man sollte hier auch nicht vergessen dass da nur Snapshots verloren gegangen sind. Kann zwar noch immer doof sein wenn man grad diese brauchte, aber es zeigt dass dies nicht die Hauptsysteme waren. Entsprechend war halt die Redundanz wohl etwas niedriger.
 
Dann richtet ihrt alle euere Raids falsch ein...
Bei einem Raid61 geht das sehr schnell... Ich richte auf einem RAID mit 30 Platten dann 3xRAID61 ein. Und habe dann noch 6 Hot-Spare Platten. Wovon aber 3 nicht eingesteckt sind... So habe ich dann 3 RAID 61 Volumes auf einem NAS.

Aber wie gesagt, das ist ein RAID für 1500 Mitarbeiter und Datensicherheit ist wichtiger als Kosten.

Anhang anzeigen 749812
und was hat das mit der Rebuildzeit zu tun?

Das Rebuilt eines Raids ist dann abgeschlossen, wenn alle Sektoren der wiederherzustellenden HDD / SSD geschrieben sind (im Gegensatz zu einem ZFS Resilver, bei dem nur die tatsächlich belegten Sektoren/Datenblöcke geschrieben werden müssen)
Eine durchschnittliche Datacenter HDD schreibt im Durchschnitt mit ca. 200-220 MB/s
>> der Rebuilt einer 10TB HDD dauert folglich 10.000.000 MB / (200MB/s) / (3600s/h) = 13,9h - "Schön gerechnet".


Bei einer 2TB SSD, die tatsächlich 500MB/s durchgängig schreiben kann sind es dann 2.000.000 MB / (500 MB/s) / (3600s/h) = 1,11h, wobei selbst die Datacenter SSDs keine 500 MB/s dauerhaft schreiben können, auch die brechen ein, wenn auch deutlich später als die Consumer SSDs.
 
Also wenn ich das hier Richtig sehe, sind "nur" 1600 Snapshots verloren gegangen.
Nehmen wir mal an wir haben Monatliche + Wöchentliche + Tägliche Snapshots
Ich kann mir gut vorstellen, dass Hetzner alle Graden Snapshots auf Storage 1 kickt und alle ungraden auf Storage 2 kickt

Main Storage
Daten

Snapshot Storage 1
Snapshot Montag
Snapshot Mittwoch
Snapshot Freitag
etc

Snapshot Storage 2
Snapshot Dienstag
Snapshot Donnerstag
Snapshot Samstag
etc

Wenn nun Storage 2 ausfällt, dann ist das nicht weiter wild. Es sind eine Menge Snapshots verloren gegangen ja, aber es sind andere Snapshots noch wo anders vorhanden und die Main Daten auch noch.
Sollte es nur ein Snapshot Storage geben, ist es etwas nerviger, da Jutta aus dem Sekretariat ihre Excel Tabelle nicht wiederherstellen kann die sie vor 2 Wochen versehentlich gelöscht hat. Aber dennoch sind alle nicht gelöschten Daten noch vorhanden.


Also ich sehe hier nicht das es schlecht aufgebaut ist.

Hotspares. Sind etwas worüber man Streiten kann. Sie sind meisten genauso Alt wie die verbauten HDDs.... Allerdings sind diese hier nicht das Problem.

Nehmen wir mal ein RAID 6 / Raid Z2 mit 6 HDDs + Hotspare

HDD1 IO
HDD2 IO
HDD3 IO
HDD4 IO
HDD5 IO
HDD6 IO
HDDSpare IO

1 HDD Fällt aus:
HDD1 IO
HDD2 IO
HDD3 IO
HDD4 NIO
HDD5 IO
HDD6 IO
HDDSpare Rebuilding HDD4
Sicherheit entspricht einem RAID5 / Raid Z1

2 HDDs fallen aus:

HDD1 IO
HDD2 IO
HDD3 IO
HDD4 NIO
HDD5 NIO
HDD6 IO
HDDSpare Rebuilding HDD4

Sicherheit entspricht einem RAID 0 Es darf mit oder ohne Hotspare keine HDD mehr ausfallen.

3 HDD fällt aus:
HDD1 IO
HDD2 IO
HDD3 NIO
HDD4 NIO
HDD5 NIO
HDD6 IO
HDDSpare Rebuilding stopped...
--> Raid ist kaputt.

Wie sollte man also vorgehen?
1. Unwichtige Storage ---> automatisch ausschalten, schauen was der Admin damit macht. (evlt gibt es ja Erfahrungen mit bestimmten HDD Serien. WD Green, IBM Deathstar etc....)
2. Wichtiges Storage ---> System anhalten Inkrementellen Snapshot auf 2. System schieben und aktivieren --> als Main deklarieren (sollte innerhalb von 1-2 Minuten automatisch machbar sein.)


Ein Rebuild ist etwas was so oder so im aktiven Betrieb unklug ist. Mehr Last auf dem System etc.
Ein Rebuild macht entweder weiter HDDs Kaputt oder kann die Datenrettung erschweren.
 
und was hat das mit der Rebuildzeit zu tun?
nichts !?
Das Rebuilt eines Raids ist dann abgeschlossen, wenn alle Sektoren der wiederherzustellenden HDD / SSD geschrieben sind (im Gegensatz zu einem ZFS Resilver, bei dem nur die tatsächlich belegten Sektoren/Datenblöcke geschrieben werden müssen)
Eine durchschnittliche Datacenter HDD schreibt im Durchschnitt mit ca. 200-220 MB/s
>> der Rebuilt einer 10TB HDD dauert folglich 10.000.000 MB / (200MB/s) / (3600s/h) = 13,9h - "Schön gerechnet".


Bei einer 2TB SSD, die tatsächlich 500MB/s durchgängig schreiben kann sind es dann 2.000.000 MB / (500 MB/s) / (3600s/h) = 1,11h, wobei selbst die Datacenter SSDs keine 500 MB/s dauerhaft schreiben können, auch die brechen ein, wenn auch deutlich später als die Consumer SSDs.
Es ging mir darum aufzuzeigen, dass man ein RAID so einrichten kann, das es egal ist wieviele Platten ausfallen.
Wenn in einem RAID, 3 Platten zum Ausfall und Datenverlust führen, dann wurde etwas falsch gemacht.
Man macht eben kein (ein) RAID6 über 32 Platten...

Aber die Admins haben bestimmt aus ihren Fehlern gelernt!
 
Es ging mir darum aufzuzeigen, dass man ein RAID so einrichten kann, das es egal ist wieviele Platten ausfallen.
Wenn in einem RAID, 3 Platten zum Ausfall und Datenverlust führen, dann wurde etwas falsch gemacht.
Man macht eben kein (ein) RAID6 über 32 Platten...

Aber die Admins haben bestimmt aus ihren Fehlern gelernt!
Man könnte die Daten natürlich auch auf CDs pressen (nicht brennen!) und in Svalbard aufbewahren :d Irgendwann kommt aber eine Kosten/Risiko-Abschätzung daher...
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh