Cerchi un'esperienza effettiva di guasto dell'unità RAID 5 2? [chiuso]


15

Mi chiedo se qualcuno ha un'esperienza personale di guasto dell'unità RAID 5 2 con unità di grandi dimensioni?

A quanto ho capito, la teoria è che con grandi unità da 1-2 TB, se un'unità si guasta nel set raid, deve ricostruire tutto, quindi colpire tutte le altre unità molto duramente e aumenta la possibilità di un altro guasto, soprattutto se le unità provenivano dallo stesso lotto di produzione. E se perdi un'altra unità, perdi tutti i dati.

Questo di solito viene spiegato dopo la dichiarazione "RAID non è backup" con cui sono d'accordo.

La teoria di questo ha senso, e lo capisco, ma succede davvero?


Purtroppo abbiamo appena ricevuto una nuova domanda con l'esperienza dal vivo di questo. :( superuser.com/questions/516844/…
Hennes il

Risposte:


15

Sì, mi è successo. Un set di 4 unità WD 500 (di fascia consumer) è andato male nel corso di circa una settimana. Sono stato lento a sostituire il primo e non ho portato l'array offline e ho perso tutti i miei dati quando il secondo ha avuto esito negativo. Ho riutilizzato i restanti due buoni e uno di loro è fallito entro il mese successivo. Erano tutti adeguatamente raffreddati e curati. Posso solo dire che ora credo alla retorica "bad batch".

In un incidente separato, ho avuto 3 unità separate di marche e modelli diversi che si guastavano entro un mese l'una dall'altra, anche se sono abbastanza certo che il motivo per cui hanno fallito era dovuto a una ventilazione inadeguata. Non cucinare i tuoi dischi!


3
Come corollario, mettiti un pezzo di ricambio in giro per quando un disco va male. Inoltre, fai attenzione alla corruzione silenziosa ... è facile perdere dati su un'unità che finge solo di funzionare.
Paul McMillan,

Questo è un altro motivo per cui non dovresti installare unità che appartengono tutte allo stesso batch in un array RAID: hanno tempi di errore correlati (sai, come i tassi di default dei titoli ipotecari garantiti subprime tranched).
Andrew Mao,

4

Questo in realtà è successo a me, tuttavia, non era davvero il modo più comune in cui un disco avrebbe fallito. Avevo 4 unità sata esterne da 500 GB nel raid 5. Erano collegate a un vecchio server IBM montato su rack economico. L'intero setup è stato nascosto sotto le scale e un giorno, un topo o un coniglio, ma qualcosa è stato masticato attraverso alcuni cavi di alimentazione e 2 unità sono state messe in corto circuito. Tutte le unità erano in custodie esterne economiche quindi credo che non avrei dovuto essere così sorpreso.


3

Stai chiedendo se puoi perdere 2 unità schiena contro schiena? Certo, tutto può succedere. Raid 5 consente grande disponibilità e aumento delle prestazioni per l'accesso ai dati, ma il raid 5 non esegue il backup di nulla. Semplicemente aiuta a prevenire l'uso dei dati a causa di una perdita dell'hardware di una singola unità. Non è una copia dei tuoi dati. Non puoi recuperare una vecchia copia, una vecchia revisione o semplicemente una copia del tuo lavoro attuale. Inoltre, non protegge dalla corruzione dei dati. Ci sono più cose che potrebbero andare male che semplicemente perdere un'unità. Il virus potrebbe corrompere tutti i tuoi dati, la sorellina ama guardare il cestino sul desktop diventare pieno e vuoto mentre ci lancia i file, l'amica stupida fa cadere una soda sul tuo computer, ecc.

Inoltre, ricorda, puoi perdere il controller raid del disco rigido. E non puoi semplicemente spostare l'array su un altro controller casuale. Normalmente devi usare esattamente lo stesso, eppure qualcosa potrebbe andare storto. Alcuni controller raid memorizzano le informazioni a bordo e altri inviano le informazioni di configurazione all'array allegato. È una scommessa quando si presenta questa situazione.

Stessa domanda su SF: /server/2888/why-is-raid-not-a-backup

Hai bisogno di più motivi?

EDIT: la tua idea è corretta e potrebbe accadere a chiunque. Personalmente non ho visto più di un disco guastato, ma ho visto alcuni morire molto vicini tra loro. Nessuno di loro era in quella finestra di ricostruzione, ma è tecnicamente un rischio. Ma hai un backup nel caso succeda qualcosa di giusto? haha. Alcune persone imparano a volte su questo difficile. Raid 6 lo porta al livello successivo con doppia parità e può perdere fino a 2 unità. Con qualsiasi configurazione raid, la propensione all'errore aumenta con la dimensione (numero di unità) e la complessità dell'array. Più unità = più punti di possibile guasto


scusa, capisco tutto ciò, chiedendo solo se è successo a qualcuno e quale fosse lo scenario?
Brian,

3

Hai ragione, in uno scenario RAID-5 se perdi un disco e poi lo ricostruisci, il sistema deve leggere con successo tutti i settori di tutte le unità sopravvissute nel set RAID. NetApp afferma che per alcune situazioni (possono fare set RAID fino a 28 unità di alcuni tipi) le probabilità di colpire un secondo guasto possono essere fino a una su dieci. Quindi fanno una "doppia parità" che credo sia correlata a RAID-6.

Ovviamente, più unità hai in un set RAID e più sono grandi, più è probabile che tu abbia un problema. Per un piccolo set RAID (3-5 dischi) le probabilità probabilmente non si sono spostate troppo rispetto all'uso di RAID-5.

Ma faccio sempre Raid-DP su NetApps dove posso.


+1 Non avevo mai pensato al fatto "devo leggere con successo ogni settore di tutte le unità sopravvissute".
Aaron LS

2

Nessuna esperienza personale , ma ho ascoltato le urla di coloro che l'hanno fatto accadere a loro. Qualsiasi sistema di archiviazione, che si tratti di una singola unità, una chiave USB, un nastro, un'enorme installazione RAID o Amazon S3, alla fine fallirà in qualsiasi modo sia più scomodo per te. Un secondo errore durante la ricostruzione di un set RAID 5 è solo uno dei modi in cui ciò può accadere.

A parte questo, il supporto per RAID a tripla parità è stato integrato in OpenSolaris un paio di giorni fa - quindi almeno un fornitore ritiene che consentire due ulteriori guasti durante la ricostruzione di parità RAID valga la pena ingegneristica.


1

Questo in realtà accade davvero. Questo è il motivo per cui le soluzioni di archiviazione NetApp hanno un'implementazione di RAID 6. Questo è solo nel caso in cui si perda una seconda unità durante la ricostruzione.

È possibile calcolare la probabilità di un errore utilizzando le formule standard elencate nel testo del collegamento della pagina seguente Man mano che si passa a un numero sempre maggiore di unità dati, aumenta la probabilità che si verifichi un tale errore. Se hai abbastanza dischi, puoi inserire questo numero nell'area di preoccupazione se stai utilizzando un RAID 5 con un numero enorme di volumi di dati.

Posso dirti per esperienza personale che puoi certamente avere due guasti alle unità nello stesso array entro lo stesso lasso di tempo critico. Raid 6 mi ha salvato dal dover ripristinare dal backup.

Spero che sia di aiuto


1

Ecco uno scenario: un'unità si guasta sull'array RAID5, ma il tuo pezzo di ricambio era già in piedi o l'ordine per il nuovo disco rigido è finalmente arrivato. Tu (o qualche servitore remoto forse) vai con una nuova unità in mano per sostituire quella difettosa. A causa della cattiva etichettatura, della stanchezza o della semplice follia, viene espulso uno dei buoni dischi rimanenti invece di quello difettoso ... e c'è il tuo secondo fallimento.


1

L'ho visto diverse volte mentre sono nel settore del recupero dei dati. E sì, spesso falliscono allo stesso tempo, tuttavia non credo che questo abbia nulla a che fare con quando sono stati costruiti necessariamente, come ho visto anche accadere con unità non corrispondenti. Molto spesso questo tipo di guasto si verifica poco dopo un temporale, un aumento di potenza o un'interruzione di corrente.

In genere il sovraccarico danneggia le unità o il controller RAID e in pochi giorni iniziano a guastarsi. In questo momento sto lavorando sul recupero di un array con due unità guaste contemporaneamente dopo un'interruzione di corrente. (sembra senza speranza in questo momento)

Un piccolo consiglio: i dispositivi di protezione da sovratensione non proteggono realmente le apparecchiature. Collega sempre il tuo raid 5 a un buon UPS. Non l'ho mai visto accadere quando l'array era su un UPS.


1

L'estrazione accidentale di una seconda unità valida da un set a parità singola non dovrebbe distruggere l'array con una buona implementazione RAID. So che ZFS RAID-Z bloccherà qualsiasi I / O sull'array fino a quando non lo ritorni in linea.


0

Un altro scenario: a un servitore remoto viene ordinato di recuperare il nastro di backup da tapedrive. Va nel rack e non estrae il nastro dal tapedrive ... ma 2 (due) dischi rigidi escono dai vani unità contemporaneamente e voilà: 2 guasti dell'unità.

Pensi che sia inverosimile? Bene, ora sono a un cliente che ha fatto proprio questo e ora sta guardando una ricostruzione del server.

Per fortuna non ha bruciato il nastro che era effettivamente nella cassetta o quant'altro ;-)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.