Cosa significa tw_cli di 3Ware per un disco “DEGRADED” vs “ECC-ERROR”?

Ho un array RAID triste su una scheda 3ware 9650SE-16ML. Quello che non posso dire è se ho appena avuto un errore del doppio disco (che peccato!) O se sto leggendo questo male. L'output relavent di /c0 show allè:

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ

E il fallimento è (da show alarms):

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

Io penso che quello che è accaduto è p0 fallito, e quindi p1 avevano presentato un errore ECC (aka, miei dati è andato). Ma ... forse no? Rimane al 97% ricostruito, ma non riesce a superare questo errore.

Per quanto ne so, un precedente amministratore ha disattivato la verifica periodica, che è ciò che ci ha portato in questo stato. Questo non è qualcosa di cui la maggior parte delle persone dovrebbe preoccuparsi con i loro RAID 3Ware!

Aggiornare

Dopo averlo provato per un paio di giorni, ho eseguito il bit IgnoreECC e lo ho ricostruito, ma i miei dati sono stati cancellati. Bummer.

linux raid 3ware

— Bill Weiss
fonte

Prova il metodo di recupero del congelatore se ci sono dati importanti su di esso.

— Chris S,

Non sono contro il trucco del congelatore, ma non è per una specifica modalità di errore, non solo "il mio disco è morto"?

— Bill Weiss,

Il disco etichettato DEGRADED è il disco di destinazione dell'operazione REBUILD.

— Wazoox,

Risposte:

Errore ECC significa che sull'unità è presente almeno un settore illeggibile. Tuttavia, se sei fortunato, quel settore potrebbe non essere effettivamente utilizzato dal filesystem situato su quel volume, quindi potresti essere ancora in grado di copiare i tuoi dati dall'array in questo stato.

Ci sono anche alcune opzioni per ignorare gli errori ECC durante la ricostruzione:

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

Tuttavia, l'utilizzo di queste opzioni significa che la striscia RAID interessata da un settore danneggiato verrà danneggiata (non sono sicuro di cosa farà esattamente la scheda in questo caso - potrebbe sostituire l'intera striscia con zeri o anche con dati casuali), quindi il " array recuperato "potrebbe effettivamente avere un danneggiamento non rilevabile (se la striscia interessata si trovava nel mezzo di alcuni file di dati). Copiare i dati dall'array in un altro posto prima di provare a ricostruire potrebbe essere più sicuro (almeno dovresti ricevere errori quando provi a leggere l'area danneggiata).

È necessario impostare la verifica pianificata dell'array per rilevare settori illeggibili in precedenza, in modo da poter sostituire un'unità che ha appena iniziato a funzionare male.

— Sergey Vlasov
fonte

Sto facendo il bit ignoreECC ora. Non sembra eccezionale per i miei dati.

— Bill Weiss,

E, sì, dovremmo lasciare che gli array vengano verificati di volta in volta. Suppongo che il tizio che lo ha impostato lo abbia disattivato per motivi di prestazioni :(

— Bill Weiss,

Bene, questo è riuscito a ricostruire, ma mi ha dato la mano sui miei dati. Bummer. Questo ci insegnerà a disattivare la verifica ...

— Bill Weiss,

Non ho mai sperimentato un'unità fisica (p0) per passare allo stato DEGRADED, tuttavia potresti essere in grado di ripristinare l'unità ECC-ERROR o persino l'unità DEGRADED rimuovendoli tramite

/c0 p1 remove

e quindi emettendo un rescan

/c0 rescan

rimetterli nell'unità raid via

maint rebuild c0 u0 p1

SATA-Drives che mi hanno fallito con ECC-ERROR sono stato in grado di resuscitare anche solo per poche ore prima di fallire di nuovo.

— ZaphodB
fonte

La rimozione dell'unità p1 nello stato corrente probabilmente porrebbe completamente l'array.

— Sergey Vlasov,

L'ho fatto con l'unità p0 (supponendo che fosse quella cattiva) e sta cercando di ricostruirla, ma ha contrassegnato l'unità come DEGRADED quasi immediatamente. Bummer.

— Bill Weiss,

AFAIR, l' unità viene mantenuta contrassegnata come DEGRADED durante la ricostruzione - vedere, ad esempio, qui . Ciò che è importante è lo stato dell'array (RICOSTRUZIONE o qualcos'altro?).

— Sergey Vlasov,

Hm. Si tratta in realtà di una ricostruzione ... Tutte e quattro le unità lampeggiano molto, è un buon segno, giusto?

— Bill Weiss,

Ricostruzione di Stiiiiiil ... è al 37% dopo 4 ore. Bummer.

— Bill Weiss,

È molto probabile che i tuoi dati siano spariti. Errore ECC indica un errore irreversibile durante la lettura da questo disco.

Se non si dispone di un backup, è possibile provare a scaricare lo stato corrente dell'array. Ciò potrebbe essere possibile perché il controller non sa se ha perso dati o solo un'area vuota (manca di informazioni sul file system).

— Sven
fonte