Alta percentuale di guasti di unità di grandi dimensioni?


24

Di recente ho distribuito un server con 5x unità da 1 TB (non menzionerò il loro marchio, ma era uno dei due grandi). Inizialmente sono stato avvertito di non ottenere unità di grande capacità, poiché un amico mi ha informato che hanno un MTBF molto basso e che sarebbe meglio ottenere unità di capacità più piccole in quanto non vengono "spinte al limite" in termini di ciò che il la tecnologia può gestire.

Da allora, tre dei cinque dischi hanno fallito. Per fortuna sono stato in grado di sostituire e ricostruire l'array prima che il disco successivo si guastasse, ma mi preoccupa molto.

Quali sono i tuoi pensieri? Li ho appena messi in un brutto batch? Oppure è più probabile che i dischi con capacità più recente / più alta si guastino rispetto ai dischi provati e testati?


2
Perché non menzioni il marchio? Immagino che il tuo lotto fosse di 7200.11 CUDA che sono noti per avere una tendenza alla morte precoce.
Dani,

In realtà, erano dei Digitali occidentali ...
Mark Henderson

Solo per la cronaca, li ho ripresi tutti e ne ho avuti di nuovi, e sono in esecuzione da due mesi senza problemi.
Mark Henderson

Ho avuto un'esperienza simile. 16 unità da 1,5 TB. Nei primi 4 mesi, 4 falliti. Nei prossimi tre anni, un soft fallì.
David Schwartz,

Risposte:


19

Probabilmente hai un brutto batch. Sono nervoso per l'implementazione di array creati da dischi dello stesso batch per questo motivo - è probabile che abbiano una durata di vita simile, il che rende potenzialmente sostitutivi molto eccitanti quando si fallisce.

Non è impossibile che ci sia qualche difetto di progettazione con le unità, che è sicuramente accaduto prima; tuttavia di solito Internet è pieno di lamentele sull'unità se c'è davvero qualcosa di sbagliato in esso, al contrario del solito rumore di fondo che troverai su qualsiasi cosa.


6
+1 Prova a distanziare i tuoi acquisti, fonte da diversi commercianti o mescola marchi per alleviare questo.
Rob Allen,

Oppure puoi mitigarlo "inserendo" le unità che provengono dallo stesso posto contemporaneamente. Esegui contro di essi un programma ad alta intensità di scrittura per diverse ore / giorni; durate scaglionate per simulare invecchiamento disparato. Ho creato un semplice programma chiamato DriveTest che scrive i dati psue-casuali, poi li legge e verifica al fine di "masterizzare" e fare un semplice banco di prova contemporaneamente. Questo suggerimento non è raccomandato per gli SSD.
rkagerer,

13

Questa è una domanda difficile a cui rispondere a meno che tu non abbia le risorse di una grande organizzazione. Vedi la ricerca di Google sugli errori del disco rigido .

Quando effettuerò un acquisto significativo di dischi, determinerò le dimensioni approssimative del disco con il costo per byte più basso, che è generalmente di una generazione più vecchia della più recente. Ciò ha senso che miglioreranno l'affidabilità di quella generazione.


1
Da 1,5 a 2 TB è il limite massimo, quindi 1 TB non soddisfa i tuoi criteri? Sono abbastanza economici.
Mark Ransom,

Ottimo punto
Knox,

10

Più piatti + più teste equivalgono a maggiori possibilità di fallimento.

Prendi due dischi rigidi WD comuni

640 GB = due piatti
1 TB = tre piatti

    WD Black 640GB vs 1TB comparison

Drive Ready Time 11 sec  13
R/W Power watts  8.3     8.4
Idle Power watts 7.7     7.8
Standby watts    1       1
Max shock        300g    250g
Performance seek 29      33
Quiet seek       26      29

Quel piatto extra = più rumore, più consumo di energia, più calore, tempo di guida più lento, più suscettibile ai danni da scossa e più vibrazioni.

Se avessero realizzato lo stesso design di unità con un solo piatto, avrebbero caratteristiche ancora migliori. In questo caso si tratta di unità di livello consumer, ma di unità consumer di fascia alta con il doppio della cache e una garanzia di 5 anni. Vedrai una matematica simile se controlli attentamente la documentazione su qualsiasi marca o stile di disco rigido tradizionale (piatti rotanti). È solo una questione di fisica che più piatti rendono un'unità meno affidabile.

Anche Jeff Hengesbach aveva ragione quando ha detto

La preoccupazione principale per le unità "grandi" è il tempo di ricostruzione in cui si verifica un errore. Maggiore è l'unità, più lunga è la ricostruzione, più ampia è la finestra per ulteriori guasti dell'unità e potenziale perdita dell'array. Con "grandi" unità il valore di disponibilità aziendale dovrebbe determinare un livello di rischio accettabile (perdita di array) che determinerà la selezione del livello RAID e il conteggio delle unità (più unità = più possibilità di guasto dell'unità).

aggiungere una piccola dose di Graeme Perrow

Un'unità con cinquanta milioni di settori ha una probabilità dieci volte maggiore di avere un settore difettoso rispetto a un'unità con cinque milioni di settori. Suppongo che la percentuale di guasti tra unità grandi e unità piccole sia la stessa qui, il che probabilmente non è un buon presupposto

Più piatti = cattivo
Più spazio di archiviazione è un miscuglio. Pro e contro sono numerosi.
Più settori è davvero più possibilità di errori. Non necessariamente lineare in scala ma sicuramente un fattore.

A meno che tu non abbia bisogno di spazio più che di affidabilità, suggerirei di utilizzare unità a piatto singolo o doppio. Ci vuole ricerca e in alcuni casi fortuna sapere cosa otterrai quando ordinerai unità poiché alcuni produttori non solo evitano di pubblicare il numero di piatti che possono effettivamente vendere più di un'unità con lo stesso numero di parte.

Prendiamo ad esempio il WD3200AAKS: esiste una versione da 320 GB a piatto singolo e una versione da 320 GB a doppio piatto (160 GB x 2). Inoltre, ci sono più lables e alloggiamenti per unità utilizzati in modo da non poter facilmente guardare l'unità e sapere quale piatto è all'interno. L'unico modo per sapere è cercare online per sapere che WD3200AAKS-00B3A0 e WD3200AAKS-75VYA0 ti dicono quale è il singolo piatto ma nessun rivenditore ti dirà quale otterrai.


1
Wow. Ecco alcune cose approfondite! Grazie! Non avevo nemmeno considerato il numero di parti mobili (piatti) prima d'ora.
Mark Henderson

3

Credo che un tasso di fallimento superiore al normale sia indicativo di qualsiasi nuova tecnologia. Mi è sempre stato detto di non comprare il primo anno modello di un'auto, aspettare fino a quando non risolvono i bug. Direi che la stessa cosa probabilmente vale per molte altre cose, inclusi i dischi rigidi.


1
Posso attestare l'intera analogia con la macchina (le analogie con la macchina non vanno mai fuori strada, vero?). Ammetto di essere stato di fretta e di non averlo studiato affatto correttamente, e ora sto pagando il prezzo!
Mark Henderson

3

Non sono sicuro che sia giusto dire che i dischi 'grandi' hanno un MTBF più alto oppure no. Ho un grande sistema di nomi con una manciata di unità da 750 GB e negli ultimi 2+ anni nessuno ha fallito (750 era "grande" 2 anni fa). Ma conosco anche un grande sistema di nomi che è stato costruito quando 250 GB erano grandi e quell'array è caduto più volte. Il dibattito MTBF è una specie di guerra santa.

La preoccupazione principale per le unità "grandi" è il tempo di ricostruzione in cui si verifica un errore. Maggiore è l'unità, più lunga è la ricostruzione, più ampia è la finestra per ulteriori guasti dell'unità e potenziale perdita dell'array. Con "grandi" unità il valore di disponibilità aziendale dovrebbe determinare un livello di rischio accettabile (perdita di array) che determinerà la selezione del livello RAID e il conteggio delle unità (più unità = più possibilità di guasto dell'unità).

Business SATA / RAID ha fatto progressi negli ultimi anni. Non credo che i grandi nomi lo offrirebbero se sapessero che sarebbe un grosso problema di supporto o una fonte di delusione per i clienti. Sarei curioso di sapere la tua affidabilità in futuro, ora che hai sostituito parte del batch originale.


1

Sono tutti sullo stesso computer o controller del disco? Hai detto che dovevi ricostruire l'array. In questo caso, forse qualcosa non funziona con il controller, l'alimentatore o la memoria . Altrimenti indovinerei anche un lotto difettoso di unità. Inoltre, potrebbe esserci un problema di compatibilità con qualsiasi unità particolare che si sta utilizzando con quel particolare controller.

Inoltre, mi chiedo quando la gente dice che i dischi più grandi hanno un MTBF più alto su come viene calcolato. Supponiamo che tu abbia dischi da 2x250 GB e 1x500 GB. Forse questo è ingenuo, ma il disco che contiene il doppio avrebbe più dati con cui potrebbe non funzionare? Immagino di non sapere se MTBF includa errori di lettura o errori di scrittura o se ciò significhi che il disco si rompe meccanicamente. Qualcuno sa se esiste uno standard industriale rigoroso e la definizione di MTBF per i dischi rigidi?


1

Ecco alcune cose che vorrei controllare: 1) I numeri di serie sulle unità sono abbastanza vicini? In tal caso potresti avere un batch difettoso 2) Com'è l'ambiente in cui vive il tuo server? Hai avuto problemi con altri hardware non riusciti di recente? 3) Le unità sono casuali Barracuda di Seagate? Ci sono problemi con queste unità. Vedi questo articolo su worldworld su di esso. 4) Queste unità sono entrate a far parte di un sistema? o li hai acquistati tu? Se hai acquistato unità OEM non è possibile assicurarti che le unità siano state maneggiate con cura prima di acquistarle.

Personalmente ho avuto un'incredibile fortuna con i dischi rigidi. Ho avuto solo due unità guaste su di me. Solo uno di questi guasti era su un'unità che stavo effettivamente utilizzando. Tuttavia, intorno a me ho visto molte persone perdere dati sui dischi rigidi.


Hmm, sì, sono tutti molto vicini, ma erano WD, non Seagates, e sì, erano unità OEM ... alcune cose che non avevo preso in considerazione ...
Mark Henderson

1

Il tasso di errore più elevato di unità di grandi dimensioni potrebbe essere solo una funzione della dimensione delle unità. Un'unità con cinquanta milioni di settori ha una probabilità dieci volte maggiore di avere un settore difettoso rispetto a un'unità con cinque milioni di settori. Suppongo che il tasso di errore tra unità grandi e unità piccole sia lo stesso qui, il che probabilmente non è un buon presupposto - come ha detto qualcun altro, il fatto che le unità terabyte siano ancora relativamente nuove, probabilmente hanno un tasso di errore più elevato per iniziare con.

Nel tuo caso, sembra solo un brutto lotto di unità.


1

Se tutte le unità sono state acquistate contemporaneamente nello stesso posto, è possibile che provengano tutte da un singolo batch iffy.

Quando si mette insieme un array RAID, in genere consiglio di mescolare un po 'le unità, ovvero un mix di produttori o almeno unità di diversi fornitori (per ridurre il rischio che tutte le unità provengano da un batch difettoso).

Un'altra raccomandazione che vorrei fare è quella di utilizzare unità più piccole, se possibile (cioè hai spazio fisico per le unità e le porte del controller per bloccarle), quindi invece di un volume RAID 1 o due unità da 1 TB hanno un RAID 10 di quattro unità da 500 Gb. In questo modo quando un'unità si guasta si sta solo ricostruendo un array più piccolo che fa parte di un array più grande invece di ricostruire l'intero array (riducendo il tempo durante il quale l'array non è completo) e offre anche un po 'più di ridondanza (in quattro dei sei scenari "due unità si guastano contemporaneamente" vivrà un array RAID10 a 4 unità). Puoi fare lo stesso combinando anche array R5 più piccoli in un array R50 se supportato dal tuo controller / software RAID.

Forse sono eccessivamente paranoico, ma diffiderei di fidarmi di 1 TB di dati su una singola unità, anche se quell'unità fa parte di un array ridondante.

Ovviamente ci sono vincoli fisici in gioco che possono rendere la tecnica poco pratica per te, anche vincoli di assorbimento di potenza, quindi YMMV. Come "per esempio" quando un array o array non è pratico: preferirei avere quattro unità come R10 in uno dei nostri server qui al posto delle unità più grandi in un array R1, ma non ha spazio fisico , l'acquisto / costruzione di un array esterno era fuori budget e non abbiamo potuto utilizzare lo spazio su un array esistente poiché i dati dovevano essere tenuti fisicamente separati da tutti gli altri dati a causa dei requisiti di protezione dei dati.


1

Qualcuno ha fatto uno studio molto dettagliato su questo problema di unità più grandi. Ha a che fare con il tasso di errore del bit che rimane costante anche se le dimensioni dell'unità aumentano, più il tempo necessario per ricostruire le unità più grandi. I due si uniscono per mettere un secondo fallimento durante la ricostruzione molto nel regno della realtà. Vorrei andare con unità da 500 GB o più piccole su array RAID.


1

Utilizzare sempre dischi rigidi di capacità inferiore per l'uso in produzione. Non ho mai controllato la fisica dietro di esso, ma i dischi più piccoli tendono a rompersi meno spesso. Questo è quello che mi hanno sempre detto tutti.


0

Hai creato un array con dischi tutti dello stesso batch e tutti spediti dallo stesso fornitore? Mi è stato detto che è una brutta cosa da fare ...


0

Prendi in considerazione RAID-6. La possibilità di un errore di lettura durante una ricostruzione RAID-5 è molto reale. O RAID-Z con ZFS.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.