RAID-6: meglio sostituire due unità morte contemporaneamente o una alla volta?


21

Abbiamo un RAID-6 a 16 unità con tre unità problematiche. Due sono già morti e il terzo sta dando avvisi SMART. (Non importa come sia arrivato in un cattivo stato.)

Ovviamente vogliamo sostituire i dischi morti prima di quelli che funzionano ancora, ma è meglio:

  1. sostituire un'unità morta, lasciare che il RAID si ricostruisca, quindi sostituire l'altro e lasciarlo ricostruire di nuovo; o

  2. sostituire entrambe le unità contemporaneamente e lasciarle ricostruire entrambe in parallelo?

Per dirla in altro modo, torneremo più rapidamente a uno stato di ridondanza reintroducendo un'unità o due? La ricostruzione di due unità in parallelo rallenta il processo di ricostruzione?

Nel caso in cui sia importante, il controller è un 3ware 9650SE-16ML.


10
Attraversa tutto quello che hai che può essere attraversato e invia alla tua divinità $ preferita una grande donazione!
user9517 supporta GoFundMonica il

1
Posso solo fare una domanda al riguardo? puoi farci sapere la marca e il modello di disco EXACT in questo array per favore - se i miei sospetti sono corretti potresti benissimo vedere questa domanda diventare un utile punto di riferimento per i futuri utenti che pongono determinate domande. Grazie.
Chopper3,

8
@Warren - AIEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE! L'hanno spento? Bad JuJu amico mio! Questa volta è troppo tardi, ma in generale lo spegnimento delle unità (specialmente se sono unità più vecchie che sono state attive e funzionanti da molto tempo) offre loro l'opportunità di lanciare errori sullo spinup (e indurre il controller a dire "Sì, anche quel disco è fritto ")
voretaq7

2
@ voretaq7: una volta ho inviato tutti i dischi da un box MSA-20 all'inferno spegnendolo dopo ~ 3 anni di uptime e uso continuo. Non lo farò mai più :-)
Karatedog

1
L'array è ora in fase di ricostruzione e ricostruzione, quindi posso ottenere modelli esatti, per chiunque si preoccupi. I dischi rigidi originali erano ST31000340NS, il che significa che sono la versione classificata dal server di quella richiesta da Chopper3. Quindi sono noti per il fallimento o qualcosa del genere? (I nuovi sono ST31000524NS.)
Warren Young

Risposte:


27

!!!!! UNO !!!!!

Fallo uno alla volta, amico, non pensare di farlo QUALUNQUE altro modo, ok.

Qualsiasi altra cosa metterà alla prova le tue abilità di ripristino del sistema completo.


3
I due elementi che aggiungerei a questa risposta sono (1) PREGHIERA (a qualsiasi divinità che ti piace) e (2) MONITORAGGIO una volta riportato tutto in uno stato sicuro (così saprai quando le unità si guastano in futuro e puoi indirizzarle il problema prima di avere due guasti e mezzo. Opzionalmente puoi anche configurare un hot spare nell'array per il futuro
voretaq7

3
Oppure usa RAID 10 </stockanswer>
Chopper3 il

1
Ri: preghiera , nessun commento. :) Ri: monitoraggio , lo sto sostenendo da anni; forse questo accenderà un fuoco sotto qualcuno. Ri: RAID-10 , troppi dati in un mercato di offerte; quando sono usciti dischi da 3 TB, non abbiamo triplicato la ridondanza, abbiamo ridotto il numero di dischi di 1/3. Sospiro. Ri: hot spare , lo facciamo ora che le unità sono abbastanza grandi da consentirlo, ma questo particolare server aveva 16 unità in un contenitore da 16 unità, quando le unità da 1 TB erano le più grandi che si potevano ottenere e avevamo davvero bisogno di tutte le 14 TB disponibili . Passare a un sistema a 24 unità non avrebbe funzionato; vedi precedente. :)
Warren Young,

2
Se le unità hanno già fallito, allora non c'è motivo di tenerle in giro - piuttosto, mi aspetto che due ricostruzioni consecutive siano più stressanti per le altre unità di una singola.
Simon Richter,

1
+1, questo. Mentre due ricostruzioni consecutive aggiungono più stress e maggiori probabilità di causare il guasto della terza unità prima di terminarle entrambe, è anche una ricostruzione più veloce e se l'unità marginale si guasta durante la ricostruzione del secondo disco, rimani comunque online. Quindi il modo più veloce e sicuro per uno stato di tolleranza agli errori è uno alla volta.
Joel Coel,

14

Hai backup recenti e validi? In caso contrario, pensi di poterli ottenere in tempi ragionevoli?

Onestamente sarei più preoccupato di far inciampare il disco rigido offline durante una ricostruzione di ogni altra cosa - Se stai già lanciando errori SMART sei più che a metà strada.

Il mio suggerimento sarebbe quello di confermare i backup, quindi ricostruire un'unità alla volta per provare a ripristinare uno stato in cui è possibile sostituire quello che genera errori SMART (prima le unità guaste, infine gli errori soft).

Se non si dispone di backup, si tratta di uno schifo: il backup può creare errori soft sufficienti per contrassegnare l'unità marginale come guasta, così come tentare di eseguire una ricostruzione.


2
La maggior parte o tutti i dati su questo array sono una specie di cache, per evitare la necessità di estrarre ripetutamente terabyte di dati attraverso un collegamento lento. Questi dati della cache sono tutti sostituibili, scaricandoli di nuovo per mesi (una volta) o spedendoli a un sito che può copiare da un altro array. Quindi, i backup non sono il problema. Ciò che stiamo cercando di prevenire salvando l'array sono i giorni o le settimane di downtime che inviano il server a un deposito di servizio, popolano nuovamente l'array e lo rispediscono.
Warren Young,

in quel caso, quello che ha detto @ chopper3 è praticamente The Law Of The Land: ricostruisci un disco alla volta e PREGHI DAVVERO DAVVERO DURO di non far scattare l'unità marginale offline con il carico di lettura extra.
voretaq7,

Accidenti, felice di sentirlo.
Chopper3,

0

Non vedo il motivo di cambiarlo come "un disco alla volta".

Ovviamente, se il RAID è in grado di "resilverare" entrambi i dischi contemporaneamente ( che sono comunque guastati ), si vince solo permettendo all'intero RAID di riguadagnare la propria capacità di sostenere fino a 2 guasti più velocemente .


-1

I miei 0,02. $

Poiché il server è già offline, esegui ddrescue sull'unità che sta per guastarsi, per clonarlo su un'altra unità sana.

Quindi inserisci la nuova unità sana nell'array. Se la clonazione ha esito positivo, eviterai il rischio che l'unità si guasta durante 2 ricostruzioni.


È un controller RAID hardware, i singoli dischi non sono indirizzabili.
Chopper3,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.