Tempo medio tra guasti - SSD


32

Il tempo medio tra guasti , o MTBF, per questo SSD è elencato come 1,500,000ore.

Sono molte ore. 1,500,000le ore sono circa 170anni. Poiché l'invenzione di questo particolare SSD è la guerra post-civile, come fanno a sapere cos'è l'MTBF?

Un paio di opzioni che hanno senso per me:

  • Newegg ha solo un refuso
  • La definizione di tempo medio tra guasti non è quella che penso sia
  • Stanno usando un qualche tipo di estrapolazione statistica per stimare quale sarebbe l'MTBF

Domanda:

Come si ottiene il tempo medio tra guasti (MTFB) per SSD / HDD?


Risposte:


34

I produttori di unità specificano l'affidabilità dei loro prodotti in termini di due metriche correlate: il tasso di guasto annuale (AFR), che è la percentuale di unità disco in una popolazione che fallisce in un test ridimensionato a una stima annuale; e il tempo medio di fallimento (MTTF).

L'AFR di un nuovo prodotto è generalmente stimato sulla base di test accelerati di vita e stress o sulla base di dati sul campo di prodotti precedenti. L'MTTF è stimato come il numero di ore di accensione all'anno diviso per l'AFR. Un presupposto comune per le unità nei server è che sono alimentate al 100% delle volte.

http://www.cs.cmu.edu/~bianca/fast/

La MTTF di 1,5 milioni di ore sembra alquanto plausibile.

Sarebbe approssimativamente un test con 1000 unità in esecuzione per 6 mesi e 3 unità guaste.
L'AFR sarebbe di (2 * 6 mesi * 3) / (1000 unità) = 0,6% all'anno e MTTF = 1 anno / 0,6% = 1.460.967 ore o 167 anni.

Un altro modo di vedere quel numero è quando hai 167 unità e le lasci in funzione per un anno, il produttore afferma che in media vedrai una sola unità guasta.

Ma mi aspetto che sia semplicemente il tasso di guasto meccanico / elettronico "casuale" costante.

Supponendo che i tassi di guasto seguano la curva della vasca da bagno , come menzionato nei commenti, il team di marketing del produttore può massaggiare un po 'i numeri di affidabilità, ad esempio non includendo DOA'S (dead on arrival, unità che hanno superato il controllo di qualità ma falliscono quando l'utente finale li installa) e allungando la definizione DOA per escludere anche quelli nel picco iniziale di fallimento. E poiché i test non vengono eseguiti abbastanza a lungo, non vedrai nemmeno gli effetti dell'età.

Penso che il periodo di garanzia sia un'indicazione migliore per quanto tempo un produttore si aspetta davvero che un SSD duri!
Questo sicuramente non si misurerà tra decenni o secoli ...


Associata a MTBF è l'affidabilità associata al numero finito di cicli di scrittura supportati dalle celle NAND. Una metrica comune è la capacità di scrittura totale, in genere in TB. Oltre ad altri requisiti prestazionali, questo è un grosso limite.

Per consentire un confronto più conveniente tra unità di dimensioni diverse e unità di dimensioni diverse, la resistenza di scrittura viene spesso convertita in capacità di scrittura giornaliera come una frazione della capacità del disco.

Supponendo che un'unità sia classificata per vivere fintanto che è in garanzia:
un SSD da 100 GB può avere una garanzia di 3 anni e una capacità di scrittura di 50 TB:

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

Più alto è quel numero, più adatto è il disco per l'IO intensivo di scrittura.
Al momento (fine 2014) gli SSD della linea di server di valore hanno un valore di 0,3-0,8 unità / giorno, la fascia media è in costante aumento da 1-5 e la fascia alta sembra salire alle stelle con livelli di resistenza alla scrittura fino a 25 * la capacità di guida al giorno per 3-5 anni.

Alcuni test del mondo reale mostrano che a volte le affermazioni del fornitore possono essere ampiamente superate, ma guidare l'attrezzatura oltre i limiti del fornitore non è sempre una considerazione aziendale ... Invece acquista unità correttamente specificate per i tuoi scopi.


1
Si noti che la conversione da AFR a MTTF assume un AFR costante. Ciò non è assolutamente vero per le cose con parti in movimento (ad es. Dischi rigidi) e potrebbe non essere vero per gli SSD.
Segna il

Decisamente vero. IIRC ha un picco precoce di insuccesso, poi un periodo di basso insuccesso e poi un costante aumento dell'AFR con l'aumentare dell'età. Aggiungi i mutevoli fattori ambientali e il numero del mondo reale diventa molto più alto. Come menzionato da @Chris S, il periodo di garanzia potrebbe essere una metrica migliore con un impatto reale sul mondo reale.
HBruijn,

Una buona visione che fa riflettere sul fatto che un MTBF di 1'500'000 ore significhi davvero "Se ho 1000 ssd come questo, 3 probabilmente falliranno entro 6 mesi (alcuni anche prima di quello) ...". +1 (e poiché i test durano un breve periodo, aspettati che la durata di vita di quelli non superi troppo la garanzia ... "MTBF" probabilmente diminuisce molto quando il tuo disco raggiunge N anni)
Olivier Dulac

1
@HBruijn Grazie per la tua risposta informativa. Il fenomeno a cui ti riferisci (picco di guasti precoci, periodo di bassi guasti, quindi aumento costante dei guasti) è descritto dalla curva della vasca .
OSE

19

Sfortunatamente l'MTBF non è quello che la maggior parte della gente pensa ...

  • Non lo è quanto durerà una singola unità.

    I produttori si aspettano che le loro unità durino fino a quando la garanzia, dopo di che non è davvero il loro problema. I dischi rigidi del vecchio piatto elettromagnetico si bloccano dopo circa 10 anni. I circuiti integrati durano a lungo, ma altri componenti (in particolare i condensatori) si consumano dopo un numero piuttosto prevedibile di cicli.

  • Lo è quante di queste unità si avrebbe bisogno di aspettare 1 unità di fallire ogni ora.

    Come altri hanno sottolineato i produttori eseguono vari test in un periodo di tempo ragionevole e determinano un tasso di fallimento. C'è una buona dose di varianza in questo tipo di test e il marketing spesso ha "input" su quale dovrebbe essere il numero finale. Indipendentemente da ciò, fanno uno sforzo migliore per indovinare quante unità sarebbero necessarie per la media di un guasto all'ora.

    Per situazioni con meno unità è possibile dedurre una probabilità statistica di guasto basata sull'MTBF, ma tenere presente che i guasti nei prodotti ben progettati dovrebbero seguire una curva "vasca" - ovvero tassi di guasto più elevati quando i dispositivi vengono inizialmente messi in servizio e dopo il loro periodo di garanzia è scaduto, con tassi di guasto più bassi nel mezzo.


2

Provengono da una valutazione statistica basata su una piccola dimensione del campione e un breve periodo di tempo. Non esiste davvero alcun metodo o processo universalmente concordato, quindi è davvero solo un 'marketing' sciocco.

Questo articolo potrebbe spiegarlo un po 'di più. E Wikipedia ha alcune formule che potrebbero essere quello che stai cercando?

In sostanza, per quasi tutto (comprese le macchine domestiche generali come una lavastoviglie) vengono eseguiti diversi prodotti per un periodo di tempo X. Quanti guasti si verificano durante questo periodo vengono utilizzati per calcolare l'MTFB.

Ovviamente non è possibile far funzionare i prodotti attraverso un intero ciclo di vita, vale a dire SSD, che durerà a lungo. Sono per lo più limitati dalla quantità di scritture piuttosto che dai guasti meccanici (che è ciò che MTFB è per)


2

Le cattive notizie su MTBF sono che la metodologia di valutazione comune suppone che il carico di scrittura distribuito uniformemente tra tutte le celle NAND. Ma le celle sono raggruppate nei cluster e quando una singola cella si guasta - l'intero cluster viene contrassegnato come morto e viene sostituito con uno nuovo dalla riserva. Di solito la riserva è circa il 20% del volume SSD. Quando la riserva è esaurita, l'intero SSD verrà contrassegnato come morto.

L'SSD IRL contiene dati persistenti e volatili. Immagina di avere il 90% di SSD pieno di dati statici e il resto del 10% è sotto il pesante carico di scrittura. Il controller SSD distribuisce il carico tra i cluster liberi disponibili. Quel 10% esaurisce la durata della vita 10 volte più velocemente di quanto tu abbia stimato. Saranno sostituiti dalla riserva ancora e ancora fino alla fine.

Nel brutto caso in cui la quantità di dati persistenti / volatili è di 30: 1 o superiore, ad esempio - una pila di foto e un database relativamente piccolo per un sito Web popolare, il tuo SSD morirà in un anno.

Uno dei miei clienti è stato molto colpito dalle caratteristiche dell'SSD e ha insistito per dotare il suo server DBMS di una coppia. Nei prossimi 12 mesi li abbiamo sostituiti entrambi due volte.

Ma di conseguenza la durata dei materiali di marketing di SSD è di 170 anni. Sicuro.


1

MTBF non è rilevante per misurare la resistenza dell'unità SSD poiché SSD non è sensibile per il tempo stesso come un normale disco rigido HDD ma per il numero di riscritture per le celle SSD. La misura più rilevante per SSD è Drive Writes Per Day (DWPD) . Ad esempio, alcuni dischi SSD di classe enterprise da 3,2 TB di durata sarebbero 3 DWPD per 5 anni.

Alcune volte il fornitore di SSD fornisce resistenza in termini di (totale) Terabyte scritti (TBW) o "Cicli di scrittura" che possono essere facilmente tradotti in DWPD e viceversa con il tempo di conoscenza e la velocità effettiva massima per l'unità SSD specificata.

Per l'esempio fornito con unità SSD da 3,2 TB:
TBW = DriveSize * Years * DWPD;
TBW = 3,2 TB * 5 * 365 * 3d = 17520 TB per 5 anni

Se l'unità fornisce 80 MByte al secondo di throughput di scrittura sostenibile, quindi
WriteCycles = DWPD * Years;
WriteCycles = 3 * 365 * 5 = 5475 cicli di scrittura totali per il disco specificato

Ciò che è importante notare è che stiamo calcolando il caso peggiore se fornirai un throughput di utilizzo del 100% per l'unità (che molto probabilmente non è possibile).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.