Voglio confrontare l'affidabilità dei diversi sistemi RAID con le unità consumer (URE / bit = 1e-14) o enterprise (URE / bit = 1e-15). La formula per avere la probabilità di successo di una ricostruzione (ignorando i problemi meccanici, che terrò più avanti in considerazione) è semplice:
error_probability = 1 - (1-per_bit_error_rate) ^ bit_read
È importante ricordare che questa è la probabilità di ottenere ALMENO un URE, non necessariamente solo uno.
Supponiamo di volere 6 GB di spazio utilizzabile. Possiamo ottenerlo con:
RAID1 con 1 + 1 dischi da 6 TB ciascuno. Durante la ricostruzione rileggiamo 1 disco da 6 TB e il rischio è: 1- (1-1e-14) ^ (6e12 * 8) = 38% per i consumatori o 4,7% per le unità aziendali.
RAID10 con 2 + 2 dischi da 3 TB ciascuno. Durante la ricostruzione rileggiamo solo 1 disco da 3 TB (quello abbinato a quello fallito!) E il rischio è inferiore: 1- (1-1e-14) ^ (3e12 * 8) = 21% per il consumatore o 2,4% per unità aziendali.
RAID5 / RAID Z1 con 2 + 1 dischi da 3 TB ciascuno. Durante la ricostruzione rileggiamo 2 dischi da 3 TB ciascuno e il rischio è: 1- (1-1e-14) ^ (2 * 3e12 * 8) = 38% per i consumatori o 4,7% o unità aziendali.
RAID5 / RAID Z1 con 3 + 1 dischi da 2 TB ciascuno (spesso utilizzati dagli utenti di prodotti SOHO come Synologys). Durante la ricostruzione rileggiamo 3 dischi da 2 TB ciascuno e il rischio è: 1- (1-1e-14) ^ (3 * 2e12 * 8) = 38% per i consumatori o 4,7% o unità aziendali.
Il calcolo dell'errore per la tolleranza del singolo disco è facile, più difficile è calcolare la probabilità con i sistemi tolleranti a guasti di più dischi (RAID6 / Z2, RAIDZ3).
Se per la ricostruzione viene utilizzato solo il primo disco e il secondo viene letto di nuovo dall'inizio nel caso in cui o un URE, la probabilità di errore è quella calcolata sopra la radice quadrata (14,5% per RAID5 2 + 1 consumer, 4,5% per consumatore RAID1 1 + 2). Tuttavia, suppongo (almeno in ZFS che abbia checksum completi!) Che il secondo disco di parità / disponibile sia letto solo dove necessario, il che significa che sono necessari solo pochi settori: quanti URE possono eventualmente accadere nel primo disco? non molti, altrimenti la probabilità di errore per i sistemi di tolleranza a disco singolo salirebbe alle stelle anche più di quanto calcolato.
Se avessi ragione, un secondo disco di parità avrebbe praticamente ridotto il rischio a valori estremamente bassi.
Domanda a parte, è importante tenere presente che i produttori aumentano la probabilità di URE per le unità di classe consumer per motivi di marketing (vendono più unità di classe enterprise), quindi anche gli HDD di classe consumer dovrebbero raggiungere 1E-15 URE / bit di lettura .
Alcuni dati: http://www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-2009-not/
I valori che ho fornito tra parentesi (unità aziendali) si applicano quindi realisticamente anche alle unità consumer. E le unità aziendali reali hanno un'affidabilità ancora maggiore (URE / bit = 1e-16).
Per quanto riguarda la probabilità di guasti meccanici, sono proporzionali al numero di dischi e proporzionali al tempo necessario per la ricostruzione.