Cosa conta come un array raid 5 'grande'?


11

Un recente problema con un NAS TeraStation Buffalo qui nel mio ufficio mi ha fatto indagare su Raid 5.

Ho trovato alcuni articoli diversi che parlano dell'inadeguatezza dell'uso del raid 5 in array di grandi dimensioni o con dischi di grandi dimensioni

Ecco un articolo di esempio che parla di problemi con la ricostruzione di un array con unità consumer di grandi dimensioni.

Sto cercando di capire cosa conta come "grande"?

Il NAS che abbiamo qui è una configurazione Raid 5 a 4 unità, ogni unità è 1 TB. Un'unità non è riuscita ed è stata sostituita, l'array è attualmente in fase di ricostruzione.

Questa configurazione costituisce così grande, in termini di probabilmente avrà un problema durante la ricostruzione?

Quanto è affidabile questa configurazione per l'uso quotidiano?


2
Dato il solito carico di sistema, quanto tempo richiede il controller per la ricostruzione? Cos'è l'MTBF degli HDD? Uno di questi due numeri, conosci la possibilità di un secondo - e catastrofico - fallimento durante la ricostruzione del RAID. Tieni presente che gli HDD sono più stressati durante la ricostruzione, quindi il risultato sopra sarà sottovalutato della possibilità di doppio fallimento.
MadHatter,

3
A parte questo, sai che RAID non è un backup, giusto?
cjc,

5
@cjc, aggiungi quella perla di saggezza ad ogni singola domanda RAID su SF, o qualcosa su questo ti fa pensare che l'OP pensi che RAID sia un backup?
BlueCompute,

Sì, ne sono consapevole. È tutto il backup, volevo solo il fastidio di dover ripristinare tutto perché l'array raid non si è riparato correttamente.
Rob,

Risposte:


18

Progettazione dell'affidabilità di un array di dischi:

  1. Trova la frequenza URE del tuo disco rigido (i produttori non amano parlare di guasti dei loro dischi rigidi, quindi potresti dover scavare per trovarlo. Dovrebbe essere 1/10 ^ X dove X è comunemente intorno a 12-18).
  2. Decidi qual è il tasso di rischio accettabile per le tue esigenze di archiviazione †. In genere si tratta di <0,5% di probabilità di errore, ma potrebbe essere di diversi percento in una memoria "scratch" e potrebbe essere <0,1 per i dati critici.
  3. 1 - ( 1 - [Drive Size] x [URE Rate]) ^ [Data Drives‡] = [Risk]
    Per le matrici con più di un disco di parità o mirror con più di una coppia di dischi nel mirror, modificare il 1after Drives in Array con il numero di dischi con parità / mirror.

Quindi ho un set di quattro unità WD Green da 1 TB in un array. Hanno un tasso URE di 1/10 ^ 14. E li uso come spazio di archiviazione. 1 - (1 - 1TB x 1/10^14byte) ^ 3=> 3.3%rischio di errore durante la ricostruzione dell'array dopo la morte di un'unità. Questi sono ottimi per archiviare la mia spazzatura, ma non sto inserendo dati critici.

† Determinare un errore accettabile è un processo lungo e complicato. Può essere riassunto come Budget = Risk * Cost. Quindi, se un fallimento costa $ 100 e ha una probabilità del 10% di accadere, dovresti avere un budget di $ 10 per prevenirlo. Ciò semplifica notevolmente il compito di determinare il rischio, i costi di vari guasti e la natura delle potenziali tecniche di prevenzione, ma si ottiene l'idea. [Data Drives] = [Total Drives] - [Parity Drives]. Un mirror a due dischi (RAID1) e RAID5 ha 1 unità di parità. Un mirror a tre dischi (RAID1) e RAID6 ha 2 unità di parità. È possibile avere più unità di parità con RAID1 e / o schemi personalizzati, ma atipici.


Questa equazione statistica viene fornita con i suoi avvertimenti:

  • Quella tariffa URE è la tariffa pubblicizzata ed è generalmente migliore nella maggior parte delle unità che rotolano fuori dalla catena di montaggio. Potresti essere fortunato e acquistare un disco che è ordini di grandezza meglio di quanto pubblicizzato. Allo stesso modo potresti ottenere un impulso che muore di mortalità infantile.
  • Alcune linee di produzione hanno tirature errate (in cui molti dischi nella corsa falliscono contemporaneamente), quindi ottenere dischi da diversi lotti di produzione aiuta a distribuire la probabilità di guasti simultanei.
  • I dischi più vecchi hanno maggiori probabilità di morire sotto lo stress di una ricostruzione.
  • I fattori ambientali fanno pagare:
    • I dischi che sono sottoposti a ciclo termico comunemente hanno più probabilità di morire (es. Accendendoli / spegnendoli regolarmente).
    • Le vibrazioni possono causare tutti i tipi di problemi: vedere video su YouTube di urla IT su un array di dischi .
  • "Esistono tre tipi di bugie: bugie, maledette bugie e statistiche" - Benjamin Disraeli

L'unità che ho preso / estratto / del dispositivo è un'unità Samsung HD103SI da 1 TB. Credo che le altre tre unità rimanenti siano uguali. L'unità sostitutiva è di un altro produttore, non ho i dettagli a portata di mano.
Rob,

Sembra che il tasso per questa unità sia 1/10
Rob

1
Ho appena corretto le equazioni, l'esempio era corretto, ora lo sono entrambi. Il tuo array sarebbe 1-(1-1099511627776*0.000000000000001)^3=> 0,00329. Hai una staffa all'esterno del punto in ^3cui dovrebbe trovarsi all'interno; e ci dovrebbe essere un altro zero in quella cosa 1/10 ^ 15.
Chris S,

2
Un'unità da 1 TB sarebbe 1000000000000 byte, quindi funzionerà leggermente meno del 3% | 0,3% a seconda della frequenza URE.
user9517

1
@IanRingrose Questo è statisticamente valido. Ho già affrontato le tue preoccupazioni specifiche. Hai qualcosa di rilevante da aggiungere oltre a quanto è già stato affermato?
Chris S,

9

La ragione per cui l'articolo esiste è di attirare l'attenzione sui tassi di errore bit irreversibili sugli HDD. In particolare, i tuoi dischi 'home PC' economici. Di solito hanno una specifica di fabbrica di 1/10 ^ 14. Si tratta di circa 12,5 TB di dati, che se stai eseguendo un RAID-5 con dischi da 2 TB ... colpisci abbastanza rapidamente.

Questo significa che dovresti:

  • utilizzare gruppi RAID più piccoli e accettare spazio sprecato maggiore.
  • Utilizzare RAID-6 e accettare la penalità di scrittura aggiuntiva. (50% superiore a RAID5)
  • Acquista dischi più costosi: "server grade" ha una specifica UBER di 1/10 ^ 16, il che significa che questo è un punto controverso. (1.2PB è meglio di 12.5TB)

In genere, suggerirei che RAID-6 è generalmente la strada da percorrere, ma ti costerà delle prestazioni.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.