Mean Time to Failure (MTTF): quando i produttori di dischi pubblicano questo, come dovresti interpretare i loro numeri?


10

Mean Time to Failure (MTTF) viene generalmente indicato in termini di ore e, facendo alcuni calcoli, sembra che un disco dovrebbe guastarsi solo dopo un buon numero di anni.

Sembra che i dischi debbano essere riparati più spesso di così. Qualcuno sa perché è così?

Ho pensato che ci fosse qualcosa di sospetto in questa metrica. Sto interpretando qualcosa di sbagliato qui?

Risposte:


14

Prima di tutto:

MTTF = Tempo medio di guasto
MTTR = Tempo medio di riparazione
MTBF = Tempo medio tra guasti = MTTF + MTTR

MTBF è spesso più o meno uguale a MTTF, poiché la riparazione può richiedere un'ora e MTTF può durare decine di migliaia di ore. Ma anche MTBF spesso non è applicabile, poiché i prodotti difettosi non vengono riparati, ma semplicemente sostituiti, perché la riparazione costa più della sostituzione.

Il calcolo MTTF è un metodo statistico complesso che prevede il calcolo delle probabilità di fallimento di ogni singola parte. E non è una cosa lineare come le persone a volte presumono. Se si dispone di un MTTF di 1000.000 ore, ciò non significa che in 1000 dispositivi si verificherà un errore dopo 1000 ore o che si verificherà un errore in 1.000.000 di dispositivi dopo 1 ora.
Molti dispositivi elettronici seguono la "curva della vasca" ,

inserisci qui la descrizione dell'immagine

dove ci sono molti fallimenti all'inizio, poi a lungo con quasi nessun fallimento, e verso la fine della vita il numero di fallimenti aumenta di nuovo. Nei dischi rigidi ci sono anche alcune parti meccaniche che hanno una curva di fallimento più lineare; questo aumenta lentamente dal primo giorno.

Se il produttore dice ad esempio MTTF 1000.000 ore (che è spesso POH o ore di accensione) significa che in media l'unità dovrebbe durare> 100 anni. Alcune unità dureranno più a lungo, altre non funzioneranno prima. Quindi, nonostante le 1000.000 ore, è perfettamente possibile avere un guasto dopo 1000 ore. Una volta ho avuto un guasto all'unità entro una settimana, quindi devi ripensare alla curva della vasca. L'unità sostitutiva ha funzionato felicemente per> 50k ore.


3
Alcune cose degne di nota potrebbero essere il fatto che i guasti precoci sono spesso chiamati burn-in. I produttori che hanno guasti iniziali molto più bassi spesso eseguono i dispositivi durante la fase di burn-in. Inoltre, l'elettronica pura non presenta un periodo di usura e solo una bruciatura.
Kortuk,

1
Si noti che quando si calcola l'MTTF (o MTBF), di solito si utilizza una sola distribuzione per modellare gli errori. Pertanto, il calcolo si basa sulla distribuzione di "mortalità infantile", "vita normale" o "logorio di fine vita". L'unica cosa che distingue queste tre distribuzioni è il parametro di forma Weibull, se si utilizza Weibull come distribuzione di base. L'unico caso in cui i guasti verrebbero fuori dalla distribuzione della "vita normale" è quando il tempo non avrebbe alcun effetto sul tasso di fallimento e quindi la distribuzione sarebbe esponenziale.

2
MTTF è principalmente utile come indicazione del tipo di vita che dovresti aspettarti dal dispositivo o dal widget. Non può essere, per ovvi motivi, una previsione esatta della data di guasto del dispositivo. È solo una stima basata sull'analisi statistica dei dati disponibili e dovrebbe essere considerata solo come tale. Utile per il budget (per quanto tempo dovrei ammortizzare o ammortizzare i costi qui) e per la pianificazione (per quanto tempo possiamo aspettarci che il widget funzioni prima di dover ottenere il prossimo).
music2myear,

Prima di tutto, che cosa esattamente è un "guasto del disco"?
Kaitlyn Mcmordie,

2
@Kaitlyn - Immagino ti riferisca a settori danneggiati. Direi che un errore del disco è quando non puoi più leggere o scrivere sull'unità. Di solito un errore meccanico, come un incidente alla testa. Questo di solito accade quando rimangono ancora molti buoni settori.
Stevenvh,

4

Se un pezzo di equipaggiamento ha un MTBF di 1.000.000 di ore di utilizzo, ciò non significa che ci si può aspettare che un pezzo di equipaggiamento duri 1.000.000 di ore. Piuttosto, significa approssimativamente che se 1.000.000 di pezzi che rientrano nella loro durata di servizio nominale vengono azionati ciascuno per un'ora o 100.000 pezzi per dieci ore (ma ancora entro la durata nominale), o 60.000.000 per un minuto, ecc. ci sarà circa un fallimento nel lotto. Si noti che la durata di servizio nominale è del tutto ortogonale a MTBF. Considera i seguenti due tipi di widget:

  1. Ogni widget, indipendentemente dall'età, ha una probabilità dello 0,1% di fallire ogni ora.
  2. Su ogni miliardo di widget, tutti tranne uno funzioneranno esattamente per 61 minuti e poi moriranno; quello morirà dopo 30 minuti; i widget hanno una durata di servizio specificata di 60 minuti.

Il primo tipo di widget avrebbe una durata media di circa 1.000 ore e inoltre un MTBF di circa 1.000 ore. Il secondo avrebbe una durata media di 61 minuti, ma un MTBF di 1.000.000.000 di ore durante il suo ciclo di vita. Mentre può sembrare strano dire che il secondo dispositivo ha un MTBF che è quasi miliardi di volte la durata prevista, l'MTBF non è quasi una cifra insignificante.

Supponiamo che uno stia per condurre un esperimento che richiede che 1.000.000 di dispositivi funzionino perfettamente per un'ora, dopo di che verranno eliminati tutti. Se un dispositivo si guasta, l'intero esperimento verrà rovinato. Quale sarebbe più utile - un dispositivo che durerà in media 1.000 ore ma ha un MTBF di solo 1.000 ore, o un dispositivo che durerebbe al massimo 61 minuti, ma avrebbe solo uno su un miliardo di possibilità di fallire incontrare quel segno?


Quindi, la linea di fondo è che non dovremmo vedere l'MTBF di 10 ^ 6 ore come la "vita media" di un determinato disco, ma piuttosto come una misura relativa alla durata di vita di più dischi?
Kaitlyn Mcmordie,

@Kaitlyn Mcmordie: il termine "vita" non è realmente applicabile; la morte non implica fallimento, né viceversa. Il produttore di un dispositivo di archiviazione può specificare le procedure da seguire per evitare la perdita di dati; tali procedure possono includere lo spostamento di tutti i dati da qualsiasi dispositivo che fornisca un'indicazione di "errore imminente" a un nuovo dispositivo (dopo che i dati sono stati copiati, il vecchio dispositivo sarebbe considerato "morto"). Se non si verifica alcuna perdita di dati da un tale evento, non si tratta di un errore. La perdita di dati che si verifica da qualsiasi dispositivo, tuttavia, anche se apparentemente sana, è un fallimento. Niente a che vedere con la vita.
supercat,

2

In aggiunta alla risposta di Stevenvh: tutti i produttori di dischi noti eseguono una serie di nuovi dispositivi, così come i produttori di componenti elettronici. Nei dischi rigidi, non ci sono solo MTBF e MTTF complessivi, ma anche statistiche sui guasti individuali per i blocchi dei dischi. In altre parole: alcune parti della rotazione, "piatto" sul disco potrebbero non funzionare, mentre la maggior parte legge / scrive ancora bene. I cosiddetti "settori danneggiati" possono essere rilevati e quindi mappati dal firmware all'interno dell'unità.

Tutte le unità oggi contengono settori aggiuntivi in ​​riserva che possono essere utilizzati al posto dei settori difettosi. Questa è semplicemente una precauzione del produttore: se non lo facessero, non potrebbero vendere il disco alla capacità proclamata. Se compongono un ulteriore x% di settori nascosti come riserva, aumentano il costo di circa <x% ma raggiungono un rendimento di produzione complessivo molto più elevato.

I dischi oggi tengono un numero di settori danneggiati che possono anche essere letti con un software appropriato. Questo e altri parametri di integrità del disco (ad es. Temperatura) sono chiamati valori SMART .

Ora, una volta che il produttore ha eseguito il test di burn-in del convertitore di frequenza e alcuni settori hanno quasi un guasto e sono stati rimappati dal firmware interno del convertitore di frequenza, il parametro SMART "Bad Sector Count" è impostato su 0. Quindi il parametro l'unità viene consegnata ai clienti.

Di solito, dopo il processo di burn-in, l'inizio della curva della vasca che è già stata menzionata non viene più visualizzato dal cliente. Siamo fortunati e vediamo solo un aumento della probabilità di fallimento nel tempo.

Quindi, se guardi l'MTTF che è citato dal produttore, per qualsiasi modellazione di guasti che potresti voler fare, puoi ignorare l'inizio della curva della vasca.


Grazie. A proposito, hai idea di cosa significhi il termine "errore del server"?
Kaitlyn Mcmordie,

Il significato ovvio è un errore riscontrato da un computer che fornisce servizi ad altri. E credo che sia il momento in cui dovresti porre domande su serverfault.com ;-) Non ho trovato nulla al riguardo nelle FAQ
cfi,

-2

Dovresti interpretarlo come marketing. In realtà non conoscono l'esatto MTBF (tempo medio tra i guasti), quindi usano vari trucchi per stimarlo e mostrano numeri più alti per le unità "enterprise" per giustificare il loro costo.

In realtà, è vantaggioso per i produttori di HDD far fallire i loro HDD subito dopo la scadenza della garanzia.

Come teoria della cospirazione, ritengo che il fallimento di massa di Seagate 7200.11 sia stato un errore nell'implementazione della "morte programmata" causando il fallimento dei dischi prima che la garanzia fosse scaduta, quindi hanno dovuto "aggiustarlo" con l'aggiornamento del firmware.


Non compro questo argomento cospirazionista.

1
@Federico Russo: Perché? Pensi che sia solo un normale errore degli sviluppatori, che causa il blocco degli HDD in uno stato non recuperabile dopo un determinato numero di ore?
BarsMonster,

2
-1: L'analisi statistica viene utilizzata per determinare i numeri MTBF, ed è nota a una certa statistica - non stanno usando solo "vari trucchi". Avrai bisogno di alcune fonti significative per sostenere le tue affermazioni secondo cui le unità aziendali sono solo numeri più alti, che i produttori di HDD hanno guasti alle loro unità al termine della garanzia e che Seagate implementa qualsiasi tipo di "morte programmata" nelle loro unità.
Kevin Vermeer,

1
È nel migliore interesse dei produttori di motori mostrare MTTF più elevati rispetto alla concorrenza. +1
tyblu,

Che cosa esattamente è un guasto del disco? Ciò che conta per uno?
Kaitlyn Mcmordie,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.