Quante riallocazioni del settore SMART indicano problemi?


17

Ho un'appliance NAS che ha poco più di un mese. È configurato per inviarmi avvisi tramite e-mail generati dai dati SMART dei dischi rigidi. Dopo un giorno, uno dei dischi rigidi ha riferito che un settore era andato male e che era stato riallocato. Durante la prima settimana, quel numero è salito a sei settori totali per il disco rigido in questione. Dopo un mese, il numero si attesta su nove settori riallocati. Il tasso sembra decisamente rallentare.

Il NAS è configurato con sei unità da 1,5 TB in una configurazione RAID-5. Con tali unità ad alta capacità, mi sarei aspettato che un settore fallisse di tanto in tanto, quindi non ero preoccupato quando i primi settori fossero trasferiti. Mi preoccupa però che nessuno degli altri dischi stia segnalando problemi.

Con quale frequenza di trasferimenti o numero totale di trasferimenti, dovrei iniziare a preoccuparmi per la salute dell'unità? Potrebbe variare in base alla capacità dell'unità?


bello, Jeremy. uno dei migliori su serverfault come molti altri qui lo troveranno utile e non è facile trovare una risposta. merita sicuramente più di +2. potresti voler riformulare la domanda in modo che non sia specifica per NetGear, ma lo spazio di archiviazione in generale
nome utente

Grazie per il feedback, ho apportato le modifiche che hai suggerito e aggiornato la situazione.
Jeremy,

1
Sostituisco le unità in un settore riallocato. Dovresti aspettarti zero durante il periodo di garanzia dell'unità. I produttori hanno sempre onorato la garanzia su questi azionamenti.
Michael Hampton

Risposte:


13

Le unità, come la maggior parte dei componenti, hanno un tasso di fallimento della curva della vasca. Falliscono molto all'inizio, hanno un tasso di fallimento relativamente basso nel mezzo e poi falliscono molto quando raggiungono la fine della loro vita.

Proprio come l'intera unità segue questa curva, anche determinate aree del disco seguiranno questa curva. Vedrai molte riassegnazioni di settore all'inizio dell'utilizzo dell'unità, ma questo dovrebbe ridursi. Quando l'unità inizia a guastarsi alla fine della vita inizierà a perdere sempre più settori.

Non è necessario preoccuparsi di 6 (a seconda dell'unità, consultare il produttore), ma è necessario guardare e vedere la frequenza di ogni nuova riallocazione. Se il deterioramento accelera o rimane invariato, preoccupati. Altrimenti, dovrebbe andare bene dopo il periodo iniziale di rodaggio.

-Adamo


Un piccolo punto: i drive falliranno LUNGO prima del loro MTBF. Penso che intendi che falliscono molto mentre si avvicinano alla loro vita prevista.
Eddie,

5
Google non ha forse completamente annullato la teoria della "curva della vasca da bagno"?
Insyte,

20

Rileggendo il documento di Google sull'argomento " Tendenze di guasti in una popolazione di unità disco di grandi dimensioni ", penso di poter tranquillamente affermare che la risposta di Adam non è corretta. Nella loro analisi di una popolazione di unità estremamente massiccia, circa il 9% aveva conteggi di riallocazione diversi da zero. La citazione esplicativa è questa:

Dopo la loro prima riallocazione, le unità hanno oltre 14 volte più probabilità di guasti entro 60 giorni rispetto alle unità senza conteggi di riallocazione, rendendo anche la soglia critica per questo parametro.

È ancora più interessante quando si tratta di "riallocazioni offline", che sono riallocazioni scoperte durante lo scrubbing in background dell'unità, non durante le operazioni di I / O effettive richieste. La loro conclusione:

Dopo la prima riallocazione offline, le unità hanno una probabilità di guasto 21 volte superiore a 60 giorni rispetto alle unità senza riallocazione offline; un effetto ancora più drastico delle riallocazioni totali.

La mia politica da ora in poi sarà che le unità con conteggi di riallocazione diversi da zero devono essere programmate per la sostituzione.


È interessante, avevo sentito parlare di quel documento ma potrei aver bisogno di rileggerlo. FWIW, 4 delle 6 unità nel mio NAS hanno settori riallocati. Grazie per la risposta.
Jeremy,

3

Azionamenti diversi probabilmente hanno parametri diversi. Su un'unità che ho verificato l'ultima volta che era un disco della serie enterprise da 1 TB di un fornitore c'erano 2048 settori riservati per la riallocazione.

È possibile stimare il numero di settori riservati visualizzati nel report SMART su un'unità che ha un numero diverso da zero di settori riallocati. Considera un rapporto su un'unità guasta di seguito.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

Qui è stato utilizzato il 95% della sua capacità riservata, ovvero 1955 settori. Pertanto la capacità iniziale era di circa il 2057. In realtà è il 2048, la differenza è dovuta all'errore di arrotondamento.

SMART trasforma l'unità in uno stato di errore quando il numero di settori riallocati raggiunge una determinata soglia. Per l'unità in questione questa soglia è impostata al 64% della capacità riservata. Sono circa 1310 settori rimappati.

Tuttavia, i settori riservati non si trovano in un arco di tempo continuo. Invece sono divisi in diversi gruppi, ogni gruppo viene utilizzato per rimappare i settori da una parte specifica del disco. Questo viene fatto per mantenere i dati locali in un'area sul disco.

Il rovescio della medaglia della località è che il disco potrebbe avere molti settori riservati. Tuttavia, un'area potrebbe già esaurire la capacità riservata. In questo caso il comportamento dipende dal firmware. Su un disco abbiamo osservato che entra in uno stato FAILED e si blocca quando si verifica un errore in una parte che non è più protetta.


Come hai stabilito che "c'erano 2048 settori riservati per la riallocazione"?
AJ.

Forse il 2047 è il numero massimo di settori riassegnabili. Uno dei miei dischi aveva esattamente il 2047 quando è stato acquistato eBay per "nuovo", che è 0x7FF, anch'esso b11.111.111.111. Andare al 2048 perderebbe un po 'di più.
davide

2

È possibile che si desideri eseguire un autotest lungo SMART, se l'unità lo supporta. Ciò potrebbe fornire ulteriori informazioni sullo stato dell'unità. Se il NAS non può eseguire questa operazione e se è possibile estrarre l'unità o spegnere il NAS per alcune ore, è possibile eseguire l'autotest lungo con il disco rigido collegato a un'altra macchina.


1

Quando un disco così nuovo si comporta in questo modo, non ci si deve fidare affatto!

Spediscilo al più presto e ottieni un'unità sostitutiva.


1

Diversi produttori hanno numeri di "perdita accettabile" diversi (stessa idea dei monitor e pixel difettosi). Verificare con il produttore dell'unità per scoprire qual è il loro standard.

Sembra una brutta tendenza però ...


-1

Western Digital è particolarmente orgogliosa della tecnologia che recupera il settore danneggiato in un tempo accettabile anziché congelare il disco inserito in RAID, il suo nome TLER ( http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery ). Il tempo è in genere 5..7 secondi.

Come ho scoperto sul Web, ci sono unità disco WD con l'opzione disabilitata, ma alcune persone hanno abilitato questa funzione su unità Green WD economiche, quindi le hanno inserite in RAID.

Utilità WDTLER rimossa dal sito di supporto WD ma può essere facilmente rilevata tramite Google.

PS Uso questa utility solo per leggere lo stato e non uso RAID ora :)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.