Qual è la letalità di un errore SMART?


0

Abbiamo un server di archiviazione da 40 TB in RAID 5, con dodici unità da 2 TB. Un'unità funge da hot spot e viene gestita con un controller RAID hardware.

Per qualche motivo abbandonato, tre unità apparentemente si sono guastate simultaneamente. Uno sembra aver fallito del tutto, mentre due mostrano errori SMART. L'hotspare non sembra essere stato convertito in parte dell'array, ma non sono sicuro che sarebbe successo automaticamente comunque.

La domanda è: è possibile riavviare queste due unità, ricostruire l'array e quindi salvare quei dati prima che quelle unità alla fine si guastino? La mia conoscenza dell'errore SMART è che non si tratta di un errore definitivo, ma semplicemente di un errore previsto.

Ovviamente queste unità devono essere sostituite a breve, ma sono completamente danneggiate o possono essere salvate?

Risposte:


0

L'unica unità guasta dovrebbe essere sostituita al più presto e l'array può ricostruirsi. Le unità in caso di guasti SMART hanno maggiori probabilità di guasti rispetto a quelle che non mostrano guasti SMART, secondo questo studio: https://static.googleusercontent.com/media/research.google.com/en//archive/disk_failures.pdf . Dovrebbero anche essere sostituiti e non essere mai più utilizzati in casi d'uso importanti.

Supponendo che si stiano utilizzando dischi rigidi identici, vale la pena ottenere più pezzi di ricambio, il numero dipende da quanto tempo si prevede che il dispositivo di archiviazione rimanga in servizio.

A mio avviso, RAID5 non è una buona opzione per array di unità di dimensioni superiori a 1 TB. RAID5 richiede molto tempo per la ricostruzione e le prestazioni sono lente durante la ricostruzione. RAID5 non è inoltre molto utile quando si hanno molti (12) dischi in un array, perché protegge solo da un errore. Un secondo errore rovina l'intero array.

Per build future, suggerisco invece di utilizzare RAID10, offrirà prestazioni veloci più coerenti fornendo una migliore tolleranza agli errori.


Sì, grazie per i punti. Come sempre, non sono stato io a configurarlo, ma solo a provare a sistemarlo! Ho citato nel commento sopra, l'array non sembra ricostruire, potenzialmente perché ora è elencato come array esterno sul nostro controller Dell PERC. Quando proviamo a importare, non possiamo perché ci sono ancora unità guaste (le unità SMART) nell'array. Qualche idea sul costringerlo a ricostruire?
Taylor F,

Purtroppo non ho usato i controller Dell PERC. Il supporto Dell può essere una risorsa migliore per te, se puoi mettere in coda un mucchio di attività da svolgere durante l'attesa al telefono :(. Se è stato eseguito il backup dei dati sul dispositivo, vale la pena capire i passaggi da ripristinare.
Christopher Ostaggio il

:( in effetti. Fa male quando il supporto Dell è la migliore opzione successiva. Andare a cercare un po 'di documentazione hardware e provare ad analizzarlo. Grazie per l'aiuto.
Taylor F

1

Comprendo che RAID 5 consente 1 errore del disco nell'array. L'hotspare è costruito di conseguenza quando richiesto. Il controller / GUI o qualunque front-end che stai utilizzando viene utilizzato per fare questo. Il tempo impiegato per la ricostruzione del RAID dipende dalla quantità di dati in uso. Una volta creato l'hotspare, in teoria il tuo RAID tornerà alla normalità. In questo momento porta offline una delle altre unità con gli errori SMART e ricostruiscila utilizzando il processo hotspare. Completa fino a quando tutti i dischi rigidi con errori non vengono sostituiti. Sostituirei qualsiasi disco con dati critici su di esso che mostrano errori SMART. In futuro è possibile utilizzare RAID 6, ovviamente è necessario eseguire il backup di tutti i dati spostandoli, ricostruendo l'array e reinserendolo. RAID 6 consente ulteriori guasti del disco, ma si ottiene un piccolo colpo sulla velocità di scrittura.


Sì, questo è stato ovviamente un campanello d'allarme per quanto riguarda i problemi di questa configurazione. Sembra che questo processo dovrebbe essere automatico? Abbiamo sostituito l'unità guasta e non sembra apportare modifiche alla configurazione. Il server sta utilizzando un Dell PERC e la configurazione è ora elencata in "configurazione esterna". Con le unità guaste, non può essere ricaricato nelle impostazioni di configurazione attive. Qualche idea su come farlo funzionare?
Taylor F,

Ho appena letto il mio commento e ho riso del fatto che si chiama "hotspare" per un motivo .. Mi dispiace. Ho usato Dell Perc e ricordo che durante la creazione del raid hai selezionato il disco da utilizzare come hotspare, quindi se un disco si guasta prende il sopravvento e quindi si accende una luce rossa sul tuo disco rigido difettoso. Questa è l'unità che sostituisci e quindi diventa la riserva di riserva. Ora è tornato tutto alle inondazioni. Il mio consiglio sarebbe di riaverlo al più presto e ottenere il supporto dell. Se non lo hai, ricostruisci il tuo raid APPENA POSSIBILE su nuovo hardware con backup. Rischi di perderlo amico.
jpsaunders,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.