Dove trovi i tuoi dati MTBF?

9

Il tempo medio tra i guasti può essere difficile da interpretare, ma esiste una vasta gamma di metodi statistici che è possibile utilizzare se si dispone di alcuni dati concreti.

Il problema è che nessuno riporta più i loro numeri MTBF. (Ad eccezione dei produttori di dischi rigidi, comunque.)

Dove si va a trovare i dati MTBF per i componenti e server?

hardware

Sono curioso di sapere come stai usando i dati MTBF.

— dr.pooter,

2

Perché MTBF non ha importanza

Il tempo medio tra il numero di errore non è importante quanto il tasso di errore non correggibile. MTBF si occupa del completo fallimento della parte, leggi l'unità. Tuttavia, quel numero non ha senso quando un singolo bit in errore provoca un panico RAID 5 e mette in gioco l'hot spare.

Mentre negli ultimi anni l'MTBF per unità di livello professionale e di consumo è aumentato di un ordine di grandezza, il tasso di errore non correggibile è rimasto relativamente costante. Questo tasso è stimato a 10 ^ 14 bit, quindi un bit per 12 terabyte letti, per unità SATA consumer, sorgente .

Perché dovresti perdere il sonno sull'array RAID 5

Quindi, questo è solo 6 passaggi di un marchio che sculaccia la nuova unità da 2 TB. Quanto tempo ci vuole per leggere 12 TB di dati? Molto meno tempo rispetto all'MTBF per quell'unità.

http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/

La cosa più preoccupante è la possibilità di un doppio errore di lettura su un array RAID 5 costituito da unità di dimensioni così grandi. Con un array RAID 5 da 7 TB da 1 TB, il probabile errore di una seconda lettura durante una ricostruzione RAID è del 50%.

http://blogs.zdnet.com/storage/?p=162

— Dave Cheney
fonte

Potresti sempre usare RAID6 forse?

— Chopper3,

3

Ottima risposta, ma copre solo i dischi rigidi

— Mark Henderson,

@ Chopper3, sì, RAID6 migliora la situazione, ma una volta che hai dedicato due dischi alla parità, e un terzo a hot spare, quindi su un array a 7 unità, ti stai avvicinando abbastanza allo stesso spazio di un array RAID10.

— Dave Cheney,

Sto cercando dati per qualcosa di più che semplici dischi rigidi. Di tanto in tanto i server interi continuano a non funzionare, quindi vale la pena misurare la frequenza.

1

È un peccato che la gente pensi che le cifre MTBF non si applichino a sistemi complessi. Il vero problema (afaik) è che i produttori non hanno le cifre MTBF per i loro moduli hardware. Queste sono cifre che dovrebbero essere disponibili per tutti i diritti. Dell dice "Dell non elenca più MTBF specifici per i propri server". è in realtà atroce! Potrebbero anche dire "Beh, le nostre cose non sono davvero abbastanza affidabili per essere utilizzate dove è richiesta una cifra MTBF".

L'ingegnere dell'affidabilità (o il ragazzo che indossa il cappello della RE) dovrebbe limitare la portata dello studio di disponibilità. Questo è spesso limitato ai moduli hardware.

Per quanto riguarda la classificazione di ciò che costituisce un fallimento ... Ecco perché eseguiamo un'analisi FMECA.

Sicuramente i sistemi sono complessi e le modalità di errore includono guasti al software, ma questo non è spesso lo scopo dello studio. Vogliamo figure MTBF per l'hardware. Chiedi al tuo venditore di fornirlo. È loro responsabilità tecnica fornirvelo ... Se si rifiutano o fanno un passo laterale, andare da qualche parte che ha server di livello telecom con cifre di disponibilità obbligatorie per l'hardware.

— Peter
fonte

Il problema quando un fornitore deve pubblicare l'MTBF è che deve pubblicarlo prima di poter raccogliere dati reali. Quindi devono produrre l'MTBF attraverso una sorta di estrapolazione. A volte può essere molto lontano. Il caso peggiore che ho visto è stato spento di oltre tre ordini di grandezza.

— Kasperd,

0

Ho visto MTBF segnalato sui siti di supporto dell'azienda. Parlate con il vostro venditore o SE per ottenere le informazioni.

— pcapademic
fonte

0

A mio avviso, i numeri MTBF sono diventati uno strumento di vendita. L'hardware moderno ha raggiunto uno stato in cui i numeri MTBF sono essenzialmente inutili. Persino il più basso dei fornitori low-ball sta producendo hardware che supera qualsiasi ciclo di aggiornamento ragionevole. Come noterai, nessuno riporta numeri MTBF. Credo che questo sia il motivo.

— dr.pooter
fonte

Eppure, alcuni server sono ancora più affidabili di altri. Dobbiamo rispondere a domande del tipo "ne vale la pena un secondo alimentatore?" Per questo abbiamo bisogno di dati. Idealmente, si tratterebbe di statistiche di guasti reali riportate su una popolazione di dispositivi simili. Usiamo MTBF come proxy debole per quella distribuzione effettiva.

Giusto. Nel mio piccolo mondo, l'idea della ridondanza è una parte prevista del processo. Per un altro esempio, guarda la maggior parte dei provider di hosting su larga scala o google. Suggerisco ancora che, dato lo stato delle merci dei server Wintel, questo è un problema in declino. Se stai parlando di serie z o simili, le equazioni e le aspettative sono molto diverse.

— dr.pooter,

0

Sfortunatamente, MTBF non è una misura pratica o affidabile nei server moderni. L'idea generale di MTBF è che se un modello / una configurazione specifici vengono utilizzati da molti per molto tempo, possiamo probabilmente conoscerne l'affidabilità.

Oggi, la maggior parte di noi scambia felicemente la potenziale affidabilità aggiuntiva per prestazioni extra dimostrate ed efficienza energetica. Ad esempio, costruiresti i tuoi nuovi server su hardware di 18-24 mesi solo perché ha dimostrato la sua affidabilità? o semplicemente andare con l'ultima generazione di CPU con più core, potenza e efficienza energetica?

Inoltre, a differenza dei sistemi di telefonia della vecchia scuola, i sistemi sono abbastanza personalizzati e, ovviamente, dipendono fortemente dal software. Quanto è affidabile la versione del BIOS x.xx o la versione del driver y.yyy? Le ultime patch del server OS / DB / app aumentano la stabilità o presentano regressioni di stabilità? Quanti server nel mondo usano effettivamente la stessa esatta combinazione di versione hardware / stack di te?

Se è necessaria un'elevata disponibilità, sarà comunque necessario aggiungere ridondanza al sistema (dual-everything, clustering, hot-spare, DRP, che cosa hai). Pertanto, l'affidabilità relativa di ciascun componente hardware non è in genere un fattore significativo, poiché si costruisce l'infrastruttura per sopravvivere a guasti di singoli componenti. Basta vivere con l'incertezza (l'affidabilità è retroattiva) e pianificare di conseguenza.

— Ofir Manor
fonte

Il problema delle configurazioni in costante cambiamento è reale. Ciò rende difficile costruire un corpus di esperienze con un singolo punto di configurazione. Tuttavia, se si sta pianificando HA, anche con una configurazione ridondante, è necessario avere un'idea dell'affidabilità dei singoli dispositivi.

Sembra che non ci sia speranza che l'IT diventi mai una scienza. Continuiamo a lavorare su ipotesi, senza dati concreti e spreco di risorse. Più simile alla magia nera che altro al giorno d'oggi. L'ingegneria sembra un obiettivo lontano.

— Giovanni Tirloni,

0

Sono d'accordo con la maggior parte delle altre risposte: i numeri MTBF non mi sono utili e non li controllo mai.

L'unica eccezione sono i dischi rigidi, ma anche lì, guardo MTBF solo in modo molto approssimativo, essendo sicuro di acquistare le unità "di classe server" più affidabili se c'è una scelta.

— Ward: ripristina Monica
fonte