DL380 G5, RAID5, ext3, RAID non riuscito


9

Abbiamo un vecchio server HP DL380G5, con 5 dischi SCSI da 3,5 '' da 300 GB in un array RAID5, in un alloggiamento esterno, formattato come volume logico con filesystem ext3, che ospita 1,2 TB di dati sensibili dei pazienti clinici.

Due dischi hanno mostrato un errore predittivo in hpacucli, quindi ho sostituito uno di loro per primo, e ho visto che era OK, ma non ho visto che diceva anche "Pronto per la ricostruzione". Anch'io ho cambiato totalmente con noncuranza il secondo, e ora dice che il RAID è FALLITO.

Ho restituito il vecchio disco, ho provato a riavviare il server ma ora mi mette in modalità di ripristino durante l'avvio e dice che non riesce a trovare il volume logico.

Qualcosa che posso fare per provare a ripristinarlo? Purtroppo non abbiamo un backup. Qualsiasi aiuto sarebbe molto apprezzato!

Stavo pensando di restituire ENTRAMBI i vecchi dischi, c'è qualche possibilità che questo possa far rivivere il RAID?


I commenti non sono per una discussione estesa; questa conversazione è stata spostata in chat .
Michael Hampton,

4
Immagino che il tuo gruppo inizierà a fare backup adesso. Se fosse mai stata una questione di necessità o costo, questo dovrebbe essere un colpo di avvertimento abbastanza chiaro.
Jonathon Reinhart,

Risposte:


25

Mi dispiace. Ma questo è un errore dell'operatore.

Avevi due dischi guasti su un array RAID5 e hai rimosso più dischi di quanti l'array potesse sostenere.

Fare questo senza alcun backup è l'errore più grande.

È necessario contattare un'azienda di recupero dati per tentare di recuperare i dati dall'unità logica danneggiata.


1
Sembra che sappia che è un errore dell'operatore ... Non è un motivo per non chiedere cosa può fare ora
StarWeaver

@StarWeaver Sì ... il passaggio successivo appropriato è contattare un'azienda di recupero dati.
ewwhite,

11

Non riaccendere il sistema. Chiudilo, chiama un servizio di recupero dati. Esistono numerosi servizi che consentono il ripristino remoto di questo tipo di errore. A questo punto, tutto ciò che puoi fare è peggiorare le cose.

Ciò comporta spesso la connessione diretta di tutte le unità a un HBA noto (non una scheda RAID o un altro controller!) E l'avvio di un'immagine linux scaricabile specifica con strumenti di gestione remota. La società accede quindi in remoto al sistema, valuta lo stato del disco e recupera tutti i metadati RAID rimasti. Utilizzando un software proprietario, possono riassemblare un disco RAID virtuale (dettagli tecnici: spesso qualcosa che si collega al sistema standard di mappatura dei dispositivi Linux). Questo espone quindi il software RAID di sola lettura (senza acceleratore SoC RAID). I passi successivi sono la verifica che i dati non siano danneggiati oltre l'uso e la clonazione del disco virtuale su un nuovo disco per completare il recupero dei dati. Dopodiché puoi preoccuparti di riavviare il sistema.

Anche se non ho intenzione di nominare alcun servizio qui, la maggior parte di essi è facile da trovare, e per quelli con servizi remoti (risparmiando il viaggio di andata e ritorno della spedizione delle unità RAID + unità di ripristino a loro e in attesa del recupero + clone e poi li rispediscono indietro) ottieni il vantaggio che i dati non lascino mai la tua struttura.


Una piccola quantità di buone notizie: fintanto che il controller RAID (o te) non ha scritto nuovi dati su nessuno dei dischi e l'avviso pre-fail non è un errore, c'è praticamente una possibilità del 99,9999% un buon team di recupero dati può ripristinarlo tutto e anche ragionevolmente veloce.


5

Ri: ripristino delle vecchie unità.

Poiché il tuo RAID è completamente morto così com'è, hai poco da perdere rimontando le due unità pre-fail.

Installarli negli alloggiamenti originali.

Ricorda che sono pre-fail non del tutto falliti, quindi c'è una buona probabilità che correranno per un tempo sufficiente a salvare i tuoi dati.

C'è una possibilità che il raid semplicemente non si verifichi, e una piccola possibilità che il controller chiederà di "resettare" il raid (scegliere NO / CANCEL) e una piccola possibilità che il controller del raid possa resettare automaticamente il raid che annullerebbe qualsiasi valore aggiunto da una società di recupero dati.

Quindi la tua massima priorità se viene fuori il RAID, è di togliere i dati. Ciò significa avere almeno 1,2 TB di spazio disponibile e pronti a copiare i dati, e uno strumento come robocopyo xcopy32o nel tuo caso Linux rsync pronto per essere eseguito. Non vuoi perdere tempo a leggere le pagine man e capire la sintassi se le tue unità stanno sprecando i loro ultimi minuti.


Una volta che i tuoi dati sono al sicuro, ricrea il raid come raid6 con le nuove unità. Perderai 300 GB di capacità, ma otterrai una tolleranza a due unità. Oppure aggiungi un'unità aggiuntiva e considera un raid10 su 6 unità. O considerare di ritirare completamente questa macchina; il G5 ha più di 10 anni e non è più adatto a compiti di produzione importanti.

E non tentare di avviare l'avvio, ma impostare anche una soluzione di backup adeguata. Ci sarà una prossima volta.


2
Giusto per chiarire: esiste una piccola ma non nulla possibilità che ciò renderà più difficile per qualsiasi azienda di recupero dati commerciale riuscire ad assistervi. Personalmente proverei a riassemblare il raid, e se non funziona, farei un bilancio.
Criggie
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.