RAID-5: due dischi falliti contemporaneamente?


21

Abbiamo un server Dell PowerEdge T410 con CentOS, con un array RAID-5 contenente 5 dischi SATA Seagate Barracuda da 3 TB. Ieri il sistema si è arrestato in modo anomalo (non so esattamente come e non ho alcun registro).

All'avvio nel BIOS del controller RAID, ho visto che su 5 dischi, il disco 1 era etichettato "mancante" e il disco 3 era etichettato "degradato". Ho forzato il backup del disco 3 e ho sostituito il disco 1 con un nuovo disco rigido (della stessa dimensione). Il BIOS lo ha rilevato e ha iniziato a ricostruire il disco 1, tuttavia è rimasto bloccato su% 1. L'indicatore di avanzamento della rotazione non si mosse per tutta la notte; totalmente congelato.

quali sono le mie opzioni? Esiste un modo per tentare di ricostruire, oltre a utilizzare un servizio di recupero dati professionale? In che modo due dischi rigidi potrebbero guastarsi contemporaneamente? Sembra troppo casuale. È possibile che il disco 1 non sia riuscito e di conseguenza il disco 3 "non è stato sincronizzato?" In tal caso, è possibile utilizzare un'utilità per ripristinarla "in sincronia?"


20
Sì, i grandi dischi sata tendono a farlo. (La ricostruzione di 3 TB richiede molte ore mentre si è esposti a doppi guasti). Quindi questo è previsto ed è per questo che RAID-5 che utilizza tale configurazione non è assolutamente raccomandato.
MichelZ,

9
Infatti. In un mondo ideale i tassi di guasto dell'unità sono distribuiti casualmente. In pratica, ciò non accade: di solito vengono acquistati dallo stesso lotto e sottoposti agli stessi stress, il che significa che iniziano tutti a raggiungere la fine della vita allo stesso tempo. Un improvviso spostamento del caricamento può facilmente capovolgere diversi "oltre il limite", anche prima di iniziare a guardare i tassi di errore irrecuperabili sui dischi SATA. Comunque - temo che le cattive notizie siano, a meno che tu non riesca a ottenere una di quelle unità online, è tempo di ottenere i backup.
Sobrique,


5
So che non aiuta molto ora, ma solo FYI - il consenso generale è usare RAID6 per unità di dimensioni superiori a 1 TB (almeno quando parliamo di 7200rpm).
pauska,

2
RAID 5 offre tolleranza agli errori, ma è un'opzione di compromesso: hai una resilienza N + 1, ma se hai unità grandi hai una finestra di grandi dimensioni in cui può verificarsi un secondo errore. RAID-6 offre una tolleranza agli errori N + 2, generalmente considerata buona (le probabilità di triplo errore sono molto più basse). Tuttavia, troverai anche il tasso di errore di dischi più costosi (ad esempio unità SATA non economiche)
Sobrique,

Risposte:


24

Dopo aver accettato una risposta negativa , mi dispiace davvero per la mia opinione eretica (che ha già salvato più volte tali array).

Il tuo secondo disco guasto ha probabilmente un problema minore, forse un blocco. Questa è la causa, perché lo strumento di sincronizzazione errata del tuo firmware raid5 danneggiato si è bloccato su di esso.

Puoi facilmente creare una copia a livello di settore con uno strumento di clonazione del disco di basso livello (ad esempio, gddrescue è probabilmente molto utile) e utilizzare questo disco come nuovo disco3. In questo caso, l'array è sopravvissuto con una piccola corruzione dei dati.

Mi dispiace, probabilmente è troppo tardi, perché l'essenza della risposta ortodossa in questo caso: "fallimento multiplo in un raid5, ecco l'apocalisse!"

Se vuoi un raid ridondante, usa il software raid in linux. Ad esempio, il layout dei dati del suo superblocco raid è pubblico e documentato ... Mi dispiace davvero, per il mio questo parere eretico.


8
Peccato che questo abbia abbassato i voti, in realtà cerca di aiutare l'OP a risolvere il pasticcio a differenza di alcuni degli altri. +1
Valità,

3
@Valità non cerca di risolvere il pasticcio, estende i suoi problemi. Un raid5 con blocchi danneggiati bruciati non dà fine al dolore poiché supererà i controlli di integrità ma si degraderà regolarmente. Inoltre non avrebbe idea di quali dati siano corrotti. Se fosse facile come riparare un blocco sarebbe la soluzione standard.
JamesRyan,

4
@JamesRyan Sono d'accordo che causerà alcuni problemi successivi e sono anche d'accordo che ci sono problemi sottostanti qui. Tuttavia, offre una soluzione valida su come ripristinare alcune funzionalità e poiché l'OP parlava di esperti di recupero dati, posso solo supporre che non dispongano di backup per recuperare i loro dati altrimenti. Alla fine, questa soluzione sarebbe solo una parte di una correzione, una volta che questo metodo avesse riavviato il sistema, probabilmente vorrai trasferire il filesystem su 5 nuovi dischi e quindi eseguire il backup.
Valità,

1
"Potresti facilmente creare una copia a livello di settore di uno strumento di copia a blocchi" È davvero questo che intendevi scrivere?
Arnaud Meuret,

1
@MikeFurlender Penso che l'hardware sia più veloce, ma proprietario e quindi fragile in quanto è necessario ottenere lo stesso controller esatto in caso di errore. Il software RAID è indipendente dall'hardware. Vedi btrfs e zfs.
Martin Ueding,

38

Si è verificato un errore del doppio disco. Ciò significa che i tuoi dati sono spariti e dovrai ripristinarli da un backup. Questo è il motivo per cui non dovremmo usare raid 5 su dischi di grandi dimensioni. Vuoi impostare il tuo raid in modo da avere sempre la possibilità di resistere a due guasti del disco, specialmente con dischi lenti di grandi dimensioni.


3
Ci sono due problemi con RAID5. Uno: tempo di ricostruzione di 3 TB, dato che un'unità SATA lenta può essere grande, aumentando le probabilità di un errore composto. L'altro è il tasso di errore del bit irrecuperabile: il foglio delle specifiche sulla maggior parte delle unità SATA ha 1/10 ^ 14, che è - circa - 12 TB di dati. Con un RAID 5B a 5 vie questo diventa quasi inevitabile quando è necessaria una ricostruzione.
Sobrique,

1
Uso RAID5 sul mio array di unità da 3 TB 5, stavo giocando con un secondo array da utilizzare come copia replicata del primo. In questo modo per me perdere i dati richiederebbe che più di 1 disco fallisse su entrambi gli array contemporaneamente (quindi avrei bisogno di 4 dischi) ma mantenendo comunque quella grande quantità della capacità disponibile. Dopo aver letto questo, ora posso aumentare quel lasso di tempo per ottenere il secondo array.
Guerra,

1
Probabilmente ha solo un badblock sul suo disk3. Mi chiedo davvero perché un amministratore di sistema professionale non abbia mai sentito parlare di strumenti di copia a livello di blocco.
Peter dice di reintegrare Monica il

1
@Wardy, il raid 6 non ti darebbe questo?
Basilio,

3
Non è una risposta molto utile. Certo, con un errore del doppio disco su un RAID 5, la possibilità di recupero non è buona. Ma la maggior parte degli errori del doppio disco su RAID 5 è probabilmente solo una questione di un disco difettoso e alcuni errori di lettura non corretti su altri dischi. In tal caso, è ancora possibile ripristinare la maggior parte dei dati, dati gli strumenti giusti. I puntatori a tali strumenti sarebbero utili.
Kasperd,

37

Le tue opzioni sono:

  1. Ripristino dai backup.
    • È fare avere i backup, non è vero? RAID non è un backup.

  2. Recupero dati professionale
    • È possibile, anche se molto costoso e non garantito, che un servizio di recupero professionale sarà in grado di recuperare i tuoi dati.

  3. Accettare la perdita di dati e apprendere dall'esperienza.
    • Come notato nei commenti, i dischi SATA di grandi dimensioni non sono raccomandati per una configurazione RAID 5 a causa della possibilità di un doppio errore durante la ricostruzione che causa il fallimento dell'array.
      • Se deve essere RAID di parità, RAID 6 è migliore e la prossima volta usa anche un hot spare.
      • I dischi SAS sono migliori per una serie di motivi, tra cui maggiore affidabilità, resilienza e tassi più bassi di errori di bit irrecuperabili che possono causare URE (errori di lettura irrecuperabili)
    • Come notato sopra, RAID non è un backup. Se i dati sono importanti, assicurarsi che sia stato eseguito il backup e che i backup siano sottoposti a test di ripristino.

1
Se si dispone di 5 dischi (come da OP) e si è impegnati in un hot spare, sicuramente si prenderebbe RAID10 su RAID6 ...?
jimbobmcgee,

1
Bene, per cominciare - useresti 4 mandrini in un RAID 1 + 0 per ottenere 2 dischi di spazio, lasciando un disco "libero". Puoi tollerare due guasti (almeno i due giusti). RAID6 offre 3 dischi di spazio e può tollerare anche due guasti (due). RAID1 + 0 ha una migliore capacità di prestazione, con una penalità di scrittura inferiore e prestazioni di lettura casuali potenzialmente migliori (le letture possono essere gestite da uno dei due mandrini).
Sobrique,

Per il punto 2. Ripristino dei dati. Il recupero professionale dei dati da un RAID5 può farti $ 20k facile. Inoltre, OP ha permesso di eseguire la ricostruzione durante la notte, stressando il disco, il che può rendere il recupero più difficile o addirittura impossibile. Ti sto solo facendo sapere in anticipo. Assicurati di inviare tutti i dischi.
OmnipotentEntity

4

Il fallimento simultaneo è possibile, anche probabile, per i motivi che altri hanno indicato. L'altra possibilità è che uno dei dischi si sia guastato qualche tempo prima e non lo stavi controllando attivamente.

Assicurarsi che il monitoraggio rilevi prontamente un volume RAID in esecuzione in modalità degradata. Forse non hai avuto un'opzione, ma non è mai bene imparare queste cose dal BIOS.


3
+1 per menzionare il monitoraggio trascurato. È importante notare già il passaggio "normale" -> "critico", non il passaggio "critico" -> "non riuscito". Questo vale anche per tutti gli altri tipi di ridondanze (linea internet di backup, birra nel seminterrato, ruota di scorta, ...).
Hagen von Eitzen,

2

Per rispondere "In che modo due dischi rigidi potrebbero non funzionare contemporaneamente?" precisamente, vorrei citare da questo articolo :

Il nocciolo dell'argomento è questo. Poiché le unità disco sono diventate sempre più grandi (circa il raddoppio in due anni), l'URE (errore di lettura irreversibile) non è migliorato alla stessa velocità. L'URI misura la frequenza di occorrenza di un errore di lettura irreversibile e viene generalmente misurato in errori per bit letti. Ad esempio, una frequenza URE di 1E-14 (10 ^ -14) implica che statisticamente si verificherebbe un errore di lettura irrecuperabile una volta ogni 1E14 bit letti (1E14 bit = 1,25E13 byte o circa 12 TB).

...

L'argomento è che con l'aumentare delle capacità del disco e la frequenza URE non migliora alla stessa velocità, la possibilità di un errore di ricostruzione RAID5 aumenta nel tempo. Statisticamente mostra che nel 2009 le capacità del disco sarebbero cresciute abbastanza da rendere inutile utilizzare RAID5 per qualsiasi array significativo.

Quindi, RAID5 non era sicuro nel 2009. Anche RAID6 lo sarà presto. Per quanto riguarda RAID1, ho iniziato a crearli con 3 dischi. RAID10 con 4 dischi è anche precario.


3
Ancora una volta, RAID non è un'alternativa di backup, ma semplicemente l'aggiunta di "una zona buffer" durante la quale un disco può essere sostituito al fine di mantenere i dati disponibili ... disponibili. L'altra opzione è quella di utilizzare la replica che richiederebbe che 2 array fallissero allo stesso tempo ... molto meno probabilmente penserei.
Guerra,

Personalmente, non mi piace il mantra che RAID non sia un backup. Il dizionario dice: "una persona, un piano, un dispositivo, ecc., Tenuti in riserva per servire da sostituto, se necessario". Se la quantità di ridondanza non è sufficiente, non funzionerà come sostituto. Se non ti interessa la ridondanza fornita da RAID, potresti non usarla. Per quanto riguarda il fatto che non è un sostituto dei backup off-disk e off-site, è tutta un'altra cosa, con cui sono d'accordo (ovviamente).
Halfgaar,

quindi cosa ne pensi di quelli che usano le strisce RAID senza ridondanza? in questo caso l'array RAID viene utilizzato esclusivamente per ottenere un vantaggio in termini di prestazioni che è un uso perfettamente valido dell'IMO secondo me RAID ha 2 scopi 1. fornire velocità raggruppando le unità o 2. fornire una rete di sicurezza nel caso in cui n le unità si guastano garantendo che i dati siano ancora disponibili.
Guerra,

Chiunque implementasse RAID sceglierebbe il tipo di RAID che desidera utilizzare in base alle proprie esigenze, velocità, affidabilità o una combinazione di 2 ma che comunque non rende RAID alcuna forma di soluzione di backup.
Guerra,

1
Quando le persone affermano che RAID non è un backup, non parlano della disponibilità. Penso che stai solo giocando con le parole. :)
gparent

2

Il thread è vecchio ma se stai leggendo, capisci quando un'unità si guasta in un array raid, controlla l'età delle unità. Se hai diversi dischi in un array raid e hanno più di 4-5 anni, è probabile che un'altra unità non funzioni. *** CREA UN'IMMAGINE o un backup ** prima di procedere. Se pensi di avere un backup, testalo per assicurarti di poterlo leggere e ripristinare da esso.

Il motivo è che stai mettendo anni di normale usura sulle unità rimanenti mentre girano a piena velocità per ore e ore. Maggiore è il numero di unità di 6 anni, maggiore è la probabilità che un'altra unità si guasta dallo stress. Se si tratta di RAID5 e si espelle l'array, è fantastico disporre di un backup, ma il ripristino di un disco da 2 TB richiederà dalle 8 alle 36 ore a seconda del tipo di controller raid e di altro hardware.

Sostituiamo regolarmente l'intero hive raid sui server di produzione se tutte le unità sono vecchie. Perché perdere tempo a sostituire un'unità, quindi attendere fino a quando la successiva non si guasta in un giorno, settimana, mese o due. Per quanto i drive siano pigri, non vale la pena perdere tempo.


1

In genere, quando si acquistano unità in lotti da un rivenditore affidabile, è possibile richiedere che le unità provengano da lotti diversi, il che è importante per i motivi sopra indicati. Quindi, questo è esattamente il motivo per cui esiste RAID 1 + 0. Se avessi usato 6 unità in RAID 1 + 0 avresti avuto 9 TB di dati con ridondanza immediata in cui non è necessaria la ricostruzione di un volume.


Dove sono le prove che dimostrano che la parte sull'uso di unità di lotti diversi è tutt'altro che un mito urbano? Inoltre, RAID 1 non protegge magicamente dall'esecuzione in settori illeggibili durante la ricostruzione. Se vuoi proteggerti, vai con RAID 6 o RAID 1 con 3 mirror (un po 'costoso).
Kasperd,

1
@kasperd Penso che la domanda che costituisce la prima parte del tuo commento sia simile, sebbene ovviamente non esattamente la stessa di, dovrei "correre" su un disco di una nuova coppia RAID 1 per ridurre la possibilità di un tempo di errore simile? .
un CVn il

1

Se il tuo controller è riconosciuto da dmraid (per esempio qui ) su Linux, potresti essere in grado di usare ddrescue per ripristinare il disco guasto su uno nuovo e usare dmraid per costruire l'array, invece del tuo controller hardware.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.