Ripristina da un array RAID forato


10

ecco la mia situazione.

Ho un server Dell con un controller Dell Perc 7i (controller LSI).

Ho avuto un'unità che mi ha dato un avviso di guasto previsto, così ho chiamato il loro supporto e sono usciti e hanno sostituito l'unità e l'array si è ricostruito, piuttosto standard.

Due settimane dopo, ho un'altra unità che mi dà l'avviso di errore previsto. Ho pensato che forse era un brutto lotto di unità o coincidenze, ecc. Quindi contatto l'assistenza e guardo più in profondità. Mi rendo conto che su uno degli altri dischi c'erano blocchi danneggiati che non si guastavano e che i blocchi danneggiati venivano copiati durante la ricostruzione. Quindi ora ho blocchi danneggiati dappertutto e stanno lentamente uccidendo il mio array. Sono arrivato a scoprire che questo si chiama array forato.

Quindi il loro consiglio era di sostituire tutte le unità, ricostruire l'array e ripristinare dal backup. Tranne che ho avuto questo problema per alcune settimane, il che significa che i miei backup sono cattivi ... e se ripristino da un backup precedente (un mese fa), mi mancheranno circa 4 settimane di dati dal mio database che è totalmente inaccettabile per il nostro ufficio.

La mia domanda è ... qualcuno ha mai recuperato da qualcosa del genere senza dover perdere i dati o senza l'approccio globale (buttare tutto fuori dalla finestra e ricominciare)?

Ho trovato un link che copriva il mio scenario, non sono sicuro che chiarisca la situazione: http://www.theprojectbot.com/raid/what-is-a-punctured-raid-array/

Qualsiasi aiuto o direzione sarebbe apprezzato! Che cosa ne pensate?

Risposte:


15

Il tuo sistema presumo sia ancora attivo, quindi la cosa migliore da fare è fare un backup immediato , scaricare i dischi / array, ricostruire e ripristinare dal backup.

I blocchi danneggiati non significano sempre che anche i backup sono danneggiati. Se non si sono verificati problemi di prestazioni o file danneggiati, i backup devono essere ancora sufficientemente completi per completare un ripristino.

Per eseguire il test, esegui il backup più recente ed esamina i dati più importanti. Se è ancora intatto, probabilmente hai un buon backup.

A questo punto, esiste un rischio poiché non si può essere sicuri al 100% che i backup siano corretti o che il backup non provochi la perdita dei file. Tuttavia, l'array alla fine fallirà e forzerà comunque un ripristino, quindi questa è l'unica vera opzione.


Vedo, in questo momento tutto sembra funzionare bene. Quindi, se sono in grado di eseguire un backup completo del mio sistema in questo momento, e sostituisco le unità, ricostruisco l'array e ripristino quel backup completo ... sto rischiando questo errore? O sto meglio reinstallare il sistema operativo e il software e ripristinare solo i database per ridurre al minimo il rischio?
user72593,

I blocchi danneggiati in genere non si verificano a livello di file. Lo farei solo se avessi trovato file corrotti.
Nathan C,

@NathanC Non ottieni "blocchi danneggiati", ottieni dati corrotti.
JamesRyan,

@ user72593 Solo perché oggi sei in grado di eseguire il backup dei file non significa che non mancheranno parti. L'unico modo per vedere cosa è buono o no è confrontarlo con i backup.
JamesRyan,

1
@JamesRyan I "blocchi danneggiati" possono trovarsi in qualsiasi punto del disco, inclusi swap, file temporanei o spazio precedentemente utilizzato ma ora inutilizzato. Quando un'unità ha blocchi danneggiati, non significa sempre che i dati siano andati persi.
Nathan C,

8

Proprio in questo istante, procedi come segue:

  • Interrompere la rotazione dei backup o l'eliminazione di quelli vecchi per questo sistema. Vuoi mantenere tutti i backup che hai attualmente.
  • Effettua un backup completo del server.

Si spera che i dischi siano ancora abbastanza buoni da mantenere intatti i dati e che non si verificheranno problemi nell'esecuzione del nuovo backup completo.

Quindi scartare quei dischi e creare un nuovo array RAID. Una volta pronto, prova a ripristinare dal backup che hai eseguito proprio ora. Con un po 'di fortuna, sarà tutto ciò che devi fare.

Se fallisce, prova il successivo meno recente, il successivo più vecchio, ecc. Assicurati di testare la funzionalità del sistema - solo perché si avvia, non significa che sia completamente operativo. In particolare, testare i database per corruzione.

Se hai dovuto ripristinare l'intero sistema da un backup precedente, va bene. Prendi i backup più recenti e ripristina solo i file del database e altri file importanti. Provali per assicurarti che funzionino correttamente. Ancora una volta, se fallisce, prova il successivo più vecchio.

L'uso di questo processo riduce al minimo la perdita di dati.


Vedo, questo risponde alla mia domanda. Quindi, fintanto che il mio backup è intatto, sto bene, in caso contrario, allora ... devo occuparmene. Grazie.
user72593,

4

Le risposte fornite da Grant e Nathan C sono ottime per quanto riguarda come procedere nella gestione dei backup / ripristino e nell'integrità dei dati.

Ecco alcuni dettagli più chiari su come gestire il set RAID quando arriva il momento di ricreare il disco virtuale e ripristinare dal backup:

  • Verifica di disporre di un buon backup dei dati
  • Elimina il disco virtuale esistente; Tutti i dischi dovrebbero essere mostrati in uno stato "pronto" in seguito
  • Ricreare un nuovo disco virtuale; Impostazioni consigliate: read-ahead adattivo, write-back e memorizzazione nella cache del disco disabilitate
  • È necessario disporre di un disco virtuale online con un'inizializzazione in background in corso.
  • Procedere con il ripristino dal backup; L'inizializzazione in background è in genere di circa 600 GB / ora per i mandrini da 7,2 K, quindi dai un vantaggio a init se il ripristino del backup può essere eseguito più velocemente di così, altrimenti il ​​tuo software di backup potrebbe avere alcuni problemi con la latenza di scrittura quando non è immediatamente disponibile nuovo spazio durante ristabilire.

Nota : Se hai utilizzato RAID5, si dovrebbe SERIAMENTE considerare l'utilizzo di RAID6 questa volta. RAID5 non è affidabile per i dati aziendali critici in base alle migliori pratiche standard del settore su un array di queste dimensioni. I dischi SATA / NL-SAS di grande capacità hanno anche un rischio maggiore di incontrare un URE durante le ricostruzioni, il che si traduce in una puntura come quella con cui hai a che fare. RAID6 riduce notevolmente questo rischio ed è generalmente accettabile per i dati critici con capacità dell'unità attualmente disponibili.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.