Areca 1280ml RAID6 volume impostato non riuscito

Oggi abbiamo colpito una specie di scenario peggiore e siamo aperti a qualsiasi tipo di buona idea.

Ecco il nostro problema:

Stiamo utilizzando diversi server di archiviazione dedicati per ospitare le nostre macchine virtuali. Prima di continuare, ecco le specifiche:

Macchina server dedicata
Controller RAID Areca 1280ml, firmware 1.49
12 HDD Samsung da 1 TB

Abbiamo configurato un set RAID6 con 10 dischi che contiene un volume logico. Abbiamo due hot spare nel sistema.

Oggi un HDD non è riuscito. Questo succede di tanto in tanto, quindi l'abbiamo sostituito. Al momento della ricostruzione di un secondo disco non è riuscito. Normalmente questo non è divertente. Abbiamo arrestato le operazioni di I / O pesanti per garantire una ricostruzione RAID stabile.

Purtroppo il disco hot-spare non è riuscito durante la ricostruzione e il tutto si è fermato.

Ora abbiamo la seguente situazione:

Il controller dice che il set di raid è in fase di ricostruzione
Il controller dice che il volume non è riuscito

È un sistema RAID 6 e due dischi non funzionano, quindi i dati devono essere intatti, ma non è possibile riportare il volume online per accedere ai dati.

Durante la ricerca abbiamo trovato i seguenti contatti. Non so se sono buoni o cattivi:

Mirroring di tutti i dischi su un secondo set di unità. Quindi avremmo la possibilità di provare cose diverse senza perdere più di quanto già abbiamo.
Prova di ricostruire l'array in R-Studio. Ma non abbiamo esperienza reale con il software.
Estrarre tutte le unità, riavviare il sistema, passare al BIOS del controller Areca, reinserire gli HDD uno a uno. Alcune persone stanno dicendo che hanno portato il sistema online da questo. Alcuni dicono che l'effetto è zero. Alcuni dicono che hanno fatto saltare tutto.
Utilizzo di comandi areca non documentati come "salvataggio" o "LeVel2ReScUe".
Contattare un servizio di informatica forense. Ma whoa ... le stime primarie per telefono hanno superato i 20.000 €. Ecco perché vorremmo chiedere aiuto. Forse ci manca l'ovvio?

E sì, certo, abbiamo i backup. Ma alcuni sistemi hanno perso una settimana di dati, ecco perché vorremmo riavviare il sistema.

Qualsiasi aiuto, suggerimenti e domande sono più che benvenuti.

— Richard
fonte

Direi che qualunque cosa tu faccia, il tuo primo passo dovrebbe essere uno ddspecchio di tutti i dischi, solo per prevenire ulteriori danni e avere un piano di fallback quando si lavora su una soluzione reale.

— Sven

Lo faremo ...

— Richard

E gli hotspares?

— Cawflands,

Potete contattare il fornitore per assistenza? Supponendo che non sia possibile (e che sia stato utilizzato dd per eseguire il mirroring di tutto, secondo l'eccellente suggerimento di @ SvenW), perché non sostituire le unità guaste, riavviare e vedere cosa succede? Non tirerei necessariamente tutte le unità, solo quelle guaste. Ma davvero, la tua prima scommessa è il venditore, capiscono il loro software.

— Jeremy,

Hai trovato una soluzione? In tal caso, fateci sapere quale fosse per riferimento futuro, per favore!

— Concedi il

Risposte:

Penso che l'opzione 1. sia la migliore.

Porta 12x nuovi HDD, 1x nuovo controller RAID Prova a eseguire il mirroring (dd if = of =) dei vecchi dischi con quelli nuovi 1: 1 usando qualsiasi Linux box. Costruisci un nuovo server usando il nuovo controller RAID 1x più i 12 nuovi HDD

Prova a ricostruire l'array nel nuovo server. Successo? Grande. Fermare.
Ricostruzione fallita? Copia nuovamente i vecchi dischi su quelli nuovi, prova l'opzione i + 1

— cipy
fonte

Questo è uno scenario molto comune purtroppo. C'è stato un buon studio su Google in questi anni fa e si scopre che durante la ricostruzione dell'array si possono perdere dati con RAID. Ciò può influire su diversi sistemi RAID con gravità diversa. Ecco lo scenario RAID6:

l'array ha 3 dischi di dati e 2 di parità.
se si perde un disco è sicuro che tutti i dati siano recuperabili.
se perdi 2 dischi hai perso i dati

Perché?

Pensa a quanto segue: lascia un po 'di dati, supponi che i primi 3 blocchi di un file abbiano i seguenti blocchi di dati: A1 + A2 + A3 e la seguente parità: Ap + Ap seduto su hdd1 ... hdd5

Se perdi due dischi tra 1 e 3 hai perso i dati perché i dati non sono recuperabili, hai 2 parità e 1 blocco di dati.

Ora lo stesso scenario con 10 dischi potrebbe essere diverso, ma immagino che sia gestito nello stesso modo in cui dividi i dati su 8 blocchi e salvi la parità su altre 2 unità e hai 2 hot-spare. Conosci i dettagli della configurazione del tuo controller RAID?

Vorrei iniziare a ripristinare dal backup offsite (suppongo che tu ne abbia alcuni), e il servizio è tornato tenta di recuperare quanti più dati possibili, usando Unix e dd le unità in immagini e usandolo come dispositivo ad esempio.

http://wiki.edseek.com/guide:mount_loopback

Devi sapere che tipo di metadati utilizza il controller RAID e se sei fortunato è supportato in alcuni strumenti come dmraid.

Ma questo non significa che puoi recuperare i dati, dal momento che i file sono distribuiti tra molti blocchi di solito, è probabile che il recupero non riesca a ripristinare nessuno dei tuoi dati.

Ulteriori informazioni su RAID:

https://raid.wiki.kernel.org/index.php/RAID_setup

— Istvan
fonte