Cosa significa tw_cli di 3Ware per un disco “DEGRADED” vs “ECC-ERROR”?


10

Ho un array RAID triste su una scheda 3ware 9650SE-16ML. Quello che non posso dire è se ho appena avuto un errore del doppio disco (che peccato!) O se sto leggendo questo male. L'output relavent di /c0 show allè:

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ            

E il fallimento è (da show alarms):

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

Io penso che quello che è accaduto è p0 fallito, e quindi p1 avevano presentato un errore ECC (aka, miei dati è andato). Ma ... forse no? Rimane al 97% ricostruito, ma non riesce a superare questo errore.

Per quanto ne so, un precedente amministratore ha disattivato la verifica periodica, che è ciò che ci ha portato in questo stato. Questo non è qualcosa di cui la maggior parte delle persone dovrebbe preoccuparsi con i loro RAID 3Ware!

Aggiornare

Dopo averlo provato per un paio di giorni, ho eseguito il bit IgnoreECC e lo ho ricostruito, ma i miei dati sono stati cancellati. Bummer.


Prova il metodo di recupero del congelatore se ci sono dati importanti su di esso.
Chris S,

Non sono contro il trucco del congelatore, ma non è per una specifica modalità di errore, non solo "il mio disco è morto"?
Bill Weiss,

Il disco etichettato DEGRADED è il disco di destinazione dell'operazione REBUILD.
Wazoox,

Risposte:


7

Errore ECC significa che sull'unità è presente almeno un settore illeggibile. Tuttavia, se sei fortunato, quel settore potrebbe non essere effettivamente utilizzato dal filesystem situato su quel volume, quindi potresti essere ancora in grado di copiare i tuoi dati dall'array in questo stato.

Ci sono anche alcune opzioni per ignorare gli errori ECC durante la ricostruzione:

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

Tuttavia, l'utilizzo di queste opzioni significa che la striscia RAID interessata da un settore danneggiato verrà danneggiata (non sono sicuro di cosa farà esattamente la scheda in questo caso - potrebbe sostituire l'intera striscia con zeri o anche con dati casuali), quindi il " array recuperato "potrebbe effettivamente avere un danneggiamento non rilevabile (se la striscia interessata si trovava nel mezzo di alcuni file di dati). Copiare i dati dall'array in un altro posto prima di provare a ricostruire potrebbe essere più sicuro (almeno dovresti ricevere errori quando provi a leggere l'area danneggiata).

È necessario impostare la verifica pianificata dell'array per rilevare settori illeggibili in precedenza, in modo da poter sostituire un'unità che ha appena iniziato a funzionare male.


Sto facendo il bit ignoreECC ora. Non sembra eccezionale per i miei dati.
Bill Weiss,

1
E, sì, dovremmo lasciare che gli array vengano verificati di volta in volta. Suppongo che il tizio che lo ha impostato lo abbia disattivato per motivi di prestazioni :(
Bill Weiss,

Bene, questo è riuscito a ricostruire, ma mi ha dato la mano sui miei dati. Bummer. Questo ci insegnerà a disattivare la verifica ...
Bill Weiss,

4

Non ho mai sperimentato un'unità fisica (p0) per passare allo stato DEGRADED, tuttavia potresti essere in grado di ripristinare l'unità ECC-ERROR o persino l'unità DEGRADED rimuovendoli tramite

/c0 p1 remove

e quindi emettendo un rescan

/c0 rescan

rimetterli nell'unità raid via

maint rebuild c0 u0 p1

SATA-Drives che mi hanno fallito con ECC-ERROR sono stato in grado di resuscitare anche solo per poche ore prima di fallire di nuovo.


3
La rimozione dell'unità p1 nello stato corrente probabilmente porrebbe completamente l'array.
Sergey Vlasov,

L'ho fatto con l'unità p0 (supponendo che fosse quella cattiva) e sta cercando di ricostruirla, ma ha contrassegnato l'unità come DEGRADED quasi immediatamente. Bummer.
Bill Weiss,

1
AFAIR, l' unità viene mantenuta contrassegnata come DEGRADED durante la ricostruzione - vedere, ad esempio, qui . Ciò che è importante è lo stato dell'array (RICOSTRUZIONE o qualcos'altro?).
Sergey Vlasov,

Hm. Si tratta in realtà di una ricostruzione ... Tutte e quattro le unità lampeggiano molto, è un buon segno, giusto?
Bill Weiss,

Ricostruzione di Stiiiiiil ... è al 37% dopo 4 ore. Bummer.
Bill Weiss,

2

È molto probabile che i tuoi dati siano spariti. Errore ECC indica un errore irreversibile durante la lettura da questo disco.

Se non si dispone di un backup, è possibile provare a scaricare lo stato corrente dell'array. Ciò potrebbe essere possibile perché il controller non sa se ha perso dati o solo un'area vuota (manca di informazioni sul file system).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.