Dovrei "eseguire" un disco di una nuova coppia RAID 1 per ridurre la possibilità di un tempo di errore simile?


19

Sto configurando un array RAID1 di due nuovi dischi rigidi da 4 TB.

Ho sentito da qualche parte in precedenza, che la creazione di un array RAID1 di nuovi dischi rigidi identici acquistati allo stesso tempo, aumentava la possibilità che si sarebbero guastati in un momento simile.

Sto quindi considerando di utilizzare uno dei dischi rigidi per un periodo di tempo (forse un paio di settimane) da solo, nel tentativo di ridurre la probabilità che entrambi si guastino in un breve lasso di tempo. (l'unità inutilizzata verrebbe tenuta scollegata in un cassetto)

Sembra un approccio ragionevole o sono più propenso a perdere tempo?


2
È un'affermazione spesso ascoltata, ma non ho ancora visto alcuna documentazione a supporto. Un rischio molto più reale è che uno dei tuoi dischi possa sviluppare alcuni settori danneggiati, che passano inosservati per un po '. Ma una volta che l'altro disco si guasta, noterai quei settori danneggiati durante la ricostruzione.
Kasperd,

8
Se stavi lavorando con dozzine di unità, potrebbe valere la pena prendere in considerazione l'approvvigionamento da alcuni lotti. Per un set di due unità, non vale la pena farlo. Il tasso di fallimento non è così simile o prevedibile ... uno potrebbe durare 3 mesi, l'altro potrebbe durare 5 anni.
jlehtinen,

Personalmente non farei raid con solo due unità. L'uso di più unità offre una migliore capacità. Ad esempio, 3 unità genererebbero 8 TB di memoria totale, a differenza di 2 unità, dando solo 4 TB. Qualsiasi unità può fallire nel set di tre e, se provengono da tre fonti, le probabilità di errore allo stesso tempo sono basse.
phyrfox,

3
@phyrfox - RAID-5 (e -6) ha caratteristiche prestazionali diverse rispetto a RAID-1 che potrebbero non essere compatibili con la sua applicazione. Con unità di grandi dimensioni (in particolare unità di qualità consumer), se avessi intenzione di utilizzare livelli RAID più elevati, andrei sicuramente con RAID-6 per proteggermi da un secondo errore del disco mentre ricostruivo l'array dopo un singolo errore del disco. Ho usato un array RAID-6 a 5 dischi per 2 anni usando una serie di unità acquistate contemporaneamente - un disco si è rotto al mese, tutto il resto non ha mostrato alcun problema.
Johnny,

1
@phyrfox RAID5 ridurrà il costo per megabyte ma in realtà AUMENTA la possibilità di riscontrare un guasto in quanto vi sono più unità guaste.
Caltor

Risposte:


16

È una perdita di tempo.

Non sarai in grado di indurre guasti o stressare le unità in modo significativo. Hai RAID, ed è un buon inizio. Assicurati solo di avere il monitoraggio in atto per rilevare effettivamente gli errori man mano che si verificano e i backup per proteggere dal disastro.


2
D'accordo per HDS convenzionale, ma per ssds è una storia molto diversa. Pensavo che valesse la pena notare ora prima che gli SSD da 4 TB diventino economici e disponibili e i lettori non si rendono conto che stiamo parlando di ruggine che gira qui, ma forse a quel punto gestiranno più scritture.
symcbean

3
Sì, sicuramente qualsiasi unità "enterprise" sarà già stata testata a fondo per superare comunque i primi guasti della curva della vasca da bagno. Anche se so che se acquisti un paio di generatori, il consiglio è di alternare dal 66% al 33%, perché in questo modo entrambi non si consumano contemporaneamente. Tuttavia, con le unità, l'MTBF ha una deviazione standard abbastanza grande, quindi è molto meno preoccupante.
Sobrique,

5

Potrebbe essere meglio usare diverse marche o serie di dischi insieme se sei preoccupato per questo.

Io ho visto i dischi dello stesso tipo ed età non riescono a grappoli, in modo IMHO non è un leend urbano.


1
Ho anche fatto, ma è dipeso da un evasivo firmware piuttosto che da qualsiasi cosa legata a MTBF.
Sobrique,

2

Grande domanda - Tuttavia, a differenza dei fari delle automobili, questa è una perdita di tempo. La valutazione MTBF [tempo medio tra guasti] per unità da 4 GB [WD Red in questo esempio] è 1.000.000 ore. Le probabilità che due unità vadano male in uno specchio allo stesso tempo sono estremamente rare. Quando l'ho visto accadere, è stato perché la prima unità si è guasta senza che nessuno se ne accorgesse. Più utile per proteggere con i backup che per disturbare prima la masterizzazione in un'unità. Se mescoli tipi di unità, assicurati che le unità abbiano la stessa velocità. Se sei paranoico, RAID 10 fa per te.


MTBF presuppone che i dischi siano indipendenti, che non si trovano nello stesso set RAID. Ci sono altri motivi per cui questa è una perdita di tempo, ma un numero ridicolo rilasciato dal produttore che ha una debole correlazione con la realtà non è uno di questi.
HopelessN00b

5
Se un HDD ha davvero avuto il tempo medio indicato tra i guasti, perché i periodi di garanzia sono così brevi? 1 M ore è 114 anni, dare o prendere. WD Red Pro (perché ne ho scelto uno dal lotto) sembra avere una garanzia di cinque anni. Anche se impieghi metà del tempo medio per fallire, Western Digital non crede ancora che sarà affidabile per più di circa un decimo del periodo MTBF dichiarato. Ora, quale saresti più propenso a credere; qualche statistica casuale senza obblighi o dove si trova effettivamente il denaro? (I resi, i rimborsi, i rimborsi e le sostituzioni in garanzia costano denaro reale.)
un CVn

1
@ MichaelKjörling: se avessero garantito l'MTBF, avrebbero sostituito oltre il 50% (sì, coda troppo lunga sulla distribuzione) delle unità in garanzia. Sicuramente dovresti guardare dove sono i soldi, ma non vedo alcun motivo per credere che l'MTBF non sia un ordine di grandezza più lungo della garanzia, e molti credono che sia.
Ben Voigt,

@ MichaelKjörling Ho visto l'hardware con un MTBF pubblicato di 100k ore che si consumerebbe costantemente dopo 1k ore di funzionamento. La prossima generazione di hardware aveva un MTBF pubblicato di 200k ore. Quando il primo lotto del nuovo hardware era in funzione da 48 ore, oltre il 50% di essi era fallito.
Kasperd,

1

Sebbene abbia senso in teoria, i dati non supportano la necessità del work intuo disco.
Non solo alcune settimane non avranno davvero un impatto, ma le percentuali di errore non funzionano davvero se si considerano solo due unità.

Mentre c'è stata qualche indicazione di tassi di guasto più normalizzati quando si tratta di unità dello stesso modello.

La maggior parte dei risultati relativi all'età sono influenzati dalle annate guida ... È interessante notare che questo non cambia le nostre conclusioni. Contrariamente ai risultati relativi all'età, notiamo che tutti i risultati mostrati nel resto dell'articolo non sono influenzati in modo significativo dal mix di popolazione. (enfatizzare il mio)

Pertanto, i guasti legati all'età, che sono solo un piccolo sottoinsieme di guasti, possono essere in qualche modo correlati per guidare le annate. Ma la maggior parte dei fallimenti non può.
Se a questo si aggiungono le percentuali di errore complessive, che possono raggiungere l'8% per un determinato anno, le probabilità che entrambe le unità si guastino nello stesso anno sono piccole, mentre quelle che si guastano nella stessa settimana sono trascurabili.
E questo se si guarda a tutte le possibili cause di fallimento, non solo ai guasti legati all'età.

Se si desidera ridurre al minimo il rischio, ma due unità di un'annata diversa.
Se vuoi assicurazioni, acquista un'assicurazione.
E come già affermato nella risposta di ewwhite , backup e monitoraggio sono indispensabili .


0

Questo è di solito un argomento per gli SSD più degli HDD nella mia esperienza. Gli SSD hanno cicli di scrittura limitati, quindi se si utilizza un RAID1 con due SSD dello stesso modello, entrambi dovrebbero esaurire i cicli di scrittura quasi contemporaneamente.

Per quanto riguarda i guasti generali, a meno che tu non abbia un problema serio come vibrazioni di massa, elettricità statica o calore elevato; Non sospetto che vedrai 2 su 2 unità guastarsi contemporaneamente.

Una delle preoccupazioni principali di RAID1 (e RAID10) con unità più grandi come 4 TB è la ricostruzione. Con uno specchio a 2 unità, quando un'unità si guasta, l'altra unità trasporta il doppio del carico di lavoro. Quindi quando si ricostruisce, quell'unità sta caricando ancora di più. Se c'è stato qualcosa di sbagliato in quell'unità, è probabile che fallisca in quelle condizioni, specialmente considerando che la ricostruzione di un mirror da 4 TB sotto carico può richiedere molto tempo.


0

Puoi farlo, ma non sarà di grande aiuto.

Ad esempio, se è presente un ago nella potenza di input, lo stesso ago ucciderà entrambi i dischi.

Ciò che è importante: è necessario disporre di un buon backup. Raid non compensa un buon backup. In realtà, se hai un buon backup, forse un raid di mirroring non è sicuramente necessario (se riesci a tollerare un collasso del sistema una volta circa 2-3 anni).


3
Il RAID riguarda la disponibilità, non il backup dei dati. Il punto è mantenere il sistema disponibile in caso di guasto di un'unità, non proteggere i dati sull'unità.
HopelessN00b

@ HopelessN00b Questo è esattamente ciò che ho cercato di spiegare nella risposta, forse non ero abbastanza chiaro?
Peter - Ripristina Monica il

La tua frase alla fine confonde le acque.
HopelessN00b

@ HopelessN00b Raid protegge anche dalla perdita di dati causata da guasti del disco. Ciò porta spesso alla falsa conclusione, che può essere utilizzata come backup. Ma usando raid e usando i backup, queste sono cose dipendenti dalla situazione. Ci sono casi in cui anche un ambiente di sysadm professionale non ha bisogno di entrambi. A mio avviso, l'obiettivo non è forzare entrambi a un sistema inesperto, ma chiarirlo, che il mirroring dei dischi e il backup dei dati sono soluzioni diverse per problemi diversi.
Peter - Ripristina Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.