Oggi abbiamo colpito una specie di scenario peggiore e siamo aperti a qualsiasi tipo di buona idea.
Ecco il nostro problema:
Stiamo utilizzando diversi server di archiviazione dedicati per ospitare le nostre macchine virtuali. Prima di continuare, ecco le specifiche:
- Macchina server dedicata
- Controller RAID Areca 1280ml, firmware 1.49
- 12 HDD Samsung da 1 TB
Abbiamo configurato un set RAID6 con 10 dischi che contiene un volume logico. Abbiamo due hot spare nel sistema.
Oggi un HDD non è riuscito. Questo succede di tanto in tanto, quindi l'abbiamo sostituito. Al momento della ricostruzione di un secondo disco non è riuscito. Normalmente questo non è divertente. Abbiamo arrestato le operazioni di I / O pesanti per garantire una ricostruzione RAID stabile.
Purtroppo il disco hot-spare non è riuscito durante la ricostruzione e il tutto si è fermato.
Ora abbiamo la seguente situazione:
- Il controller dice che il set di raid è in fase di ricostruzione
- Il controller dice che il volume non è riuscito
È un sistema RAID 6 e due dischi non funzionano, quindi i dati devono essere intatti, ma non è possibile riportare il volume online per accedere ai dati.
Durante la ricerca abbiamo trovato i seguenti contatti. Non so se sono buoni o cattivi:
Mirroring di tutti i dischi su un secondo set di unità. Quindi avremmo la possibilità di provare cose diverse senza perdere più di quanto già abbiamo.
Prova di ricostruire l'array in R-Studio. Ma non abbiamo esperienza reale con il software.
Estrarre tutte le unità, riavviare il sistema, passare al BIOS del controller Areca, reinserire gli HDD uno a uno. Alcune persone stanno dicendo che hanno portato il sistema online da questo. Alcuni dicono che l'effetto è zero. Alcuni dicono che hanno fatto saltare tutto.
Utilizzo di comandi areca non documentati come "salvataggio" o "LeVel2ReScUe".
Contattare un servizio di informatica forense. Ma whoa ... le stime primarie per telefono hanno superato i 20.000 €. Ecco perché vorremmo chiedere aiuto. Forse ci manca l'ovvio?
E sì, certo, abbiamo i backup. Ma alcuni sistemi hanno perso una settimana di dati, ecco perché vorremmo riavviare il sistema.
Qualsiasi aiuto, suggerimenti e domande sono più che benvenuti.
dd
specchio di tutti i dischi, solo per prevenire ulteriori danni e avere un piano di fallback quando si lavora su una soluzione reale.