che cos'è esattamente un URE?


13

Ultimamente ho esaminato RAID5 Vs RAID6 e continuo a vedere che RAID5 non è più abbastanza sicuro a causa delle classificazioni URE e dell'aumento delle dimensioni delle unità. Fondamentalmente, la maggior parte del contenuto che ho trovato dice che in RAID5, in caso di guasto del disco, se il resto dell'array è di 12 TB, allora hai quasi il 100% di probabilità di incontrare un URE e di perdere i tuoi dati.

La cifra di 12 TB deriva dal fatto che i dischi sono classificati a 10 ^ 14 bit letti per raggiungere un URE.

Bene, c'è qualcosa che non arrivo qui. Una lettura viene fatta dal capo che va sul settore, ciò che può far fallire la lettura è o la testa muore o il settore muore. può anche essere che la lettura non funzioni per qualche altro motivo (non lo so, come una vibrazione ha fatto saltare la testa ...). quindi, lasciami affrontare tutte e 3 le situazioni:

  • la lettura non funziona: non è irrecuperabile, vero? può essere riprovato.
  • la testa muore: questo sarebbe sicuramente irrecuperabile, ma ciò significa anche che l'intero piatto (o almeno il lato) sarebbe illeggibile, sarebbe più allarmante, no?
  • il settore muore: anche totalmente irrecuperabile, ma qui non capisco perché il disco da 4 TB sia valutato a 10 ^ 14 per l'URRE e l'8 TB sia anche valutato a 10 ^ 14 per l'URE, ciò significherebbe i settori sul 8 TB (molto probabilmente la tecnologia più recente) sono la metà affidabili di quelli sul 4 TB, che non ha senso.

Come vedi, dai 3 punti di errore che identifico, nessuno ha senso. Quindi cos'è esattamente un URE, intendo concretamente?

C'è qualcuno che può spiegarmelo?

Modifica 1

Dopo la prima ondata di risposte, sembra che la ragione sia il fallimento del settore. La cosa buona è che firmware, controller RAID e filesystem OS + hanno messo in atto procedure per rilevare precocemente e riallocare settori.

Bene, ora so cos'è un URE (in realtà, il nome è abbastanza autoesplicativo :)).

Sono ancora perplesso dalle cause sottostanti e soprattutto dalla valutazione stabile che danno.

Alcuni hanno attribuito il settore in fallimento a fonti esterne (onde cosmiche), sono quindi sorpreso che il tasso di URE sia quindi basato sul conteggio delle letture e non sull'età, le onde cosmiche dovrebbero effettivamente avere un impatto su un disco più vecchio semplicemente perché è stato esposto inoltre, penso che sia più una fantasia, anche se potrei sbagliarmi.

Ora arriva l'altra ragione che riguarda l'usura del disco e alcuni hanno sottolineato che densità più elevate danno domini magnetici più deboli, che ha perfettamente senso e seguirò la spiegazione. Ma come è ben spiegato qui , i nuovi dischi di dimensioni diverse si ottengono principalmente inserendo più o meno dello stesso piatto (e quindi della stessa densità) nello chassis dell'HDD. I settori sono gli stessi e tutti dovrebbero avere la stessa affidabilità, quindi i dischi più grandi dovrebbero avere un punteggio più alto rispetto ai dischi più piccoli, i settori letti di meno, non è così, perché? Ciò spiegherebbe però perché i dischi più recenti con tecnologia più recente non ottengono una valutazione migliore rispetto a quelli vecchi, semplicemente perché il migliore guadagno tecnologico è compensato dalla perdita dovuta alla maggiore densità.


"URE e perdere i tuoi dati" afaik (e potrei sbagliarmi), un URE significa solo che alcuni dati vengono persi, non tutti - e puoi provare di nuovo a ricostruire dopo aver colpito l'URRE. Detto questo, il raid 10 o zfs è un po 'dove si trova in questi giorni.
Sirex,

1
"i settori [sui dischi più recenti] sono la metà affidabili rispetto a [sul vecchio], non ha senso " Non sono sicuro di essere d'accordo. Poiché le zone magnetiche diventano sempre più piccole (il che implica densità di dati più elevate nello stesso pacchetto di dimensioni), è molto ragionevole che diventino sempre più suscettibili alla cancellazione accidentale (emissioni di raggi gamma locali, eventi di raggi cosmici e così via). Questa crescente suscettibilità delle unità moderne è il motivo per cui nessuno di noi distribuisce unità non RAID in tutto ciò che conta, e uno dei motivi per cui la maggior parte di noi ha rinunciato a RAID-5.
MadHatter,


Il vero problema qui è che troppi array RAID stanno trasformando un singolo URE in un errore di intero array. Un singolo URE dovrebbe causare la perdita di un singolo blocco RAID. Lascia che il filesystem capisca se quel blocco è stato persino usato, è probabile che non abbia importanza.
Salterio

1
@Memes no, i numeri si cancellano. Il doppio di settori rappresenta anche il doppio delle opportunità di errore, quindi lo stesso tasso di errore di lettura equivale alla stessa affidabilità su una base per byte. Ecco perché è usato in primo luogo.
Hobbs

Risposte:


12

Un URE è un errore di lettura irrecuperabile. È successo qualcosa che ha impedito la lettura di un settore che l'unità non è in grado di risolvere. L'elettronica dell'unità è sofisticata, trasmetterà i dati solo se sono stati in grado di leggerli correttamente dal disco. L'elettronica dell'unità tenterà più volte di leggere un settore danneggiato prima di dichiararlo danneggiato.

Cosa causa l'errore di lettura - Non sono un esperto qui (ne consegue un ondeggiamento del braccio), ma guidare l'invecchiamento può far sì che le tolleranze di produzione diventino rilevanti. I domini magnetici possono indebolirsi. I raggi cosmici possono causare danni ecc. Essenzialmente si tratta di un fallimento casuale.

In che modo influisce su RAID 5?

Un RAID 5 è costituito da striping a livello di blocco con parità distribuita. I blocchi di parità vengono calcolati XORing i bit dai blocchi di dati insieme. La funzione XOR dice sostanzialmente, se tutti i bit sono uguali, il risultato è 0, altrimenti è 1. Quando si calcola la parità si prendono i primi 2 bit e li XOR quindi XOR il risultato con il bit successivo e così via, ad es.

1010   data      or    1010 data
1100   data            1100 data
0110   parity          0011 data
                       0101 parity

La natura della funzione XOR è tale che se un disco muore e viene sostituito, i dati che dovrebbero trovarsi su di esso possono essere ricostruiti dai dischi rimanenti.

1010  data       or    1010 data
      damaged               damaged
0101  parity           0011 data
                       0101 parity

Come puoi vedere, i dati danneggiati possono essere ricostruiti XORing i dati rimanenti e la parità.

In che modo un URE influenza questo?

Un URE è significativo solo durante una ricostruzione RAID 5.

Quando si ricostruisce un RAID 5, è necessario eseguire molte letture. Ogni blocco di dati deve essere letto per ricostruire i dati sul nuovo disco. Se si verifica un URE, i dati per il blocco pertinente non possono essere recuperati, pertanto i dati non sono coerenti. Per dischi sufficientemente grandi in un R5 sufficientemente grande, il numero di bit letti per ricostruire il disco sostituito supera il valore URE, ad esempio 1 bit in 10 ^ 14 letto.


2
Un singolo disco da 8 TB ha oltre 6 * 10 ^ 13 bit attivi, quindi con solo tre di questi dischi in un RAID-5, un URE è più probabile che non durante una ricostruzione. Oh, e +1 da parte mia.
MadHatter,

3
L'affermazione (scritta nella domanda e in alcune risposte e commenti, anche in altre domande, in realtà su Internet) che dopo aver letto 12 TB un errore di lettura è quasi certo è falsa. Non ci credi? Non farlo. Lo so. Leggendo 12 (o più) TB da qualsiasi disco e osservando che non si è verificato alcun errore. Per favore, fallo e ferma questo mito. Grazie.
David Balažic,

1
@IanKemp No non lo è. L'ho provato. Ovviamente no. (inoltre, la valutazione migliore sposta leggermente il mito, nessun vero cambiamento)
David Balažic,

1
@ DavidBalažic Evidentemente, la dimensione del campione di uno invalida l'intera teoria della probabilità! Ti suggerisco di presentare un documento al Comitato Nobel.
Ian Kemp,

1
@IanKemp Se qualcuno afferma che tutti i numeri sono divisibili per 7 e trovo UNO che non lo è, allora sì, un singolo ritrovamento può invalidare un'intera teoria. A proposito, non una sola persona ha confermato il mito in pratica (per esperimento), vero? Perché dovrebbero, quando la credenza è più della conoscenza ...
David Balažic,

9

Quindi cos'è esattamente un URE, intendo concretamente?

I dischi rigidi non memorizzano semplicemente i dati richiesti. A causa delle dimensioni del dominio magnetico in costante diminuzione e del fatto che i dischi rigidi memorizzano i dati in modo analogico anziché binario (il firmware del disco rigido riceve un segnale analogico dal piatto, che viene tradotto in un segnale binario, e questa traduzione è parte della salsa segreta del produttore), c'è praticamente sempre un certo grado di errore in una lettura, che deve essere compensato.

Per garantire che i dati possano essere riletti, il disco rigido memorizza anche i dati di correzione degli errori in avanti insieme ai dati che gli è stato chiesto di memorizzare.

In normali operazioni, i dati FEC sono sufficienti per correggere gli errori nel segnale che viene letto dal piatto. Il firmware può quindi ricostruire i dati originali e tutto va bene. Si tratta di un errore di lettura recuperabile che viene esposto in SMART come attributo del tasso di errore di lettura (attributo SMART 0x01) e / o ECC hardware recuperato (attributo SMART 0xc3).

Se per qualche motivo il segnale degrada al di sotto di un certo punto, i dati FEC non sono più sufficienti per ricostruire i dati originali. A quel punto, secondo la teoria, il firmware sarà ancora in grado di rilevare che i dati non possono essere riletti in modo affidabile, ma non può farci nulla. Se più di tali letture falliscono, il disco deve in qualche modo informare il resto del computer che la lettura non può essere eseguita correttamente. Lo fa segnalando un errore di lettura irrecuperabile . Ciò aumenta anche il contatore Errori non corretti segnalati (attributo SMART 0xbb).

Un errore di lettura irrecuperabile, o URE, è semplicemente un rapporto che, per qualsiasi motivo, i dati del payload più i dati FEC erano insufficienti per ricostruire i dati memorizzati originariamente.

Tieni presente che i tassi di URE sono statistici . Non troverai alcun disco rigido in cui puoi leggere esattamente 10 ^ 14 (o 10 ^ 15) - 1 bit correttamente e quindi il bit successivo non riesce. Piuttosto, è una dichiarazione del produttore che in media , se leggi (diciamo) 10 ^ 14 bit, ad un certo punto durante quel processo incontrerai un settore illeggibile.

Inoltre, seguendo le ultime parole sopra, tieni presente che i tassi URE sono indicati in termini di settori per bit letti . A causa del modo in cui i dati vengono archiviati sui piatti, il disco non può dire quale parte di un settore è difettosa, quindi se un settore non supera il controllo FEC, l'intero settore viene considerato cattivo.


OK, quindi sembra indicare il fallimento del settore. Prendo totalmente le cose statistiche, nessuna preoccupazione. Vedo anche qui che l'affidabilità del settore diminuisce all'aumentare della densità, ma ciò non ha ancora senso. I dischi più recenti di solito hanno la stessa densità del piatto, indipendentemente dalle dimensioni fisiche, i 4 TB avranno solo meno piatti dei 6 TB. Fondamentalmente i settori sono gli stessi, quindi perché l'8 TB non è in grado di raggiungere statisticamente un valore più elevato, ci sono il doppio del numero di settori, quindi ognuno è letto la metà (statisticamente). dovrebbero quindi fallire di meno, no?
Memes

3

il settore muore: anche totalmente irrecuperabile, ma qui non capisco perché il disco da 4 TB sia valutato a 10 ^ 14 per l'URRE e l'8 TB sia anche valutato a 10 ^ 14 per l'URE, ciò significherebbe i settori sul 8 TB (molto probabilmente la tecnologia più recente) sono la metà affidabili di quelli sul 4 TB, che non ha senso.

La specifica è di solito " viene rilevato in media 1 errore durante la lettura di n bit", quindi le dimensioni dell'unità non contano. È importante se si calcola il rischio che si verifichi un errore sull'unità e sul carico di lavoro, ma il produttore afferma solo che ci vogliono n bit letti per trovare un errore (in media, non garantito).

Esempio: se acquisti un'unità da 1 TB, dovresti leggerla circa 12 volte per trovare un errore, mentre un'unità da 8 TB potrebbe riscontrarla sulla seconda lettura, ma il numero di bit letti è lo stesso in entrambe le volte, quindi la qualità dei mandrini magnetici è approssimativamente lo stesso.

Ciò che si paga a un prezzo aumentato sono altri fattori, la capacità di stipare 8 TB nello spazio fisico di 1 TB, un consumo di energia notevolmente ridotto, un minor numero di crash di testa durante lo spostamento dell'unità, ecc.


0

Penso che @Michael Kjörling abbia risposto chiaramente.

Quando il disco legge, la testa rileva la direzione del dominio magnetico, quindi invia un segnale elettronico, che è analogico. Partiamo dal presupposto che il firmware dovrebbe fornire un 1 quando riceve una tensione superiore a 0,5 V, ma il campo magnetico è troppo debole, quindi la testa invia un segnale solo con 0,499 V, si è verificato un errore. Abbiamo bisogno del FEC per correggere questo errore.

Ecco un esempio: i dati di un settore dovrebbero essere 0x0F23, li codifichiamo con 0 * 1 + F * 2 + 2 * 3 + 3 * 4 = 0x30. ora prendiamo la FEC e la scriviamo dopo il settore. Quando leggiamo, leggiamo 0x0E23 e FEC 0x30, non corrisponde. Dopo alcuni calcoli, abbiamo scoperto che dovrebbe essere 0x0F23. Ma se abbiamo 0x0E13 e 0x30, O abbiamo 0x0E23 e 0x32, non possiamo calcolare quello corretto.

Questa valutazione è così bassa, forse a meno che la manifattura di hdd non legga i PB, i dati di EB potrebbero ottenere un valore stabile. Quindi danno il valore di probabilità: quando leggi i dati a 10 ^ 14 bit, potresti incontrarti una volta. Dal momento che è un valore di probabilità, forse ti sei imbattuto dopo aver letto solo 1 dati di settore, forse hai incontrato fino a quando non leggi i dati da 50 TB. E questo valore non ha nulla a che fare con la capacità del disco, è solo una possibile preoccupazione per la dimensione dei dati che leggi. Se leggi un disco da 4 TB pieno di dati 6 volte, questa possibilità equivale a leggere un disco da 6 TB 4 volte o a leggere un disco da 8 TB 3 volte.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.