Mi chiedevo se c'è un modo per dire la probabilità che qualcosa non funzioni (un prodotto) se abbiamo 100.000 prodotti sul campo per 1 anno e senza guasti? Qual è la probabilità che uno dei prossimi 10.000 prodotti venduti fallisca?
Mi chiedevo se c'è un modo per dire la probabilità che qualcosa non funzioni (un prodotto) se abbiamo 100.000 prodotti sul campo per 1 anno e senza guasti? Qual è la probabilità che uno dei prossimi 10.000 prodotti venduti fallisca?
Risposte:
La probabilità che un prodotto fallisca è sicuramente una funzione del tempo e dell'uso. Non abbiamo dati in uso e con solo un anno non ci sono guasti (congratulazioni!). Pertanto, questo aspetto (chiamato funzione di sopravvivenza ), non può essere stimato dai tuoi dati.
Tuttavia, è possibile pensare ai guasti entro un anno come attingendo da una distribuzione binomiale . Non ci sono ancora errori, ma questo è ora un problema comune. Una soluzione semplice è usare la regola di 3 , che è accurata con grande (che sicuramente hai). In particolare, è possibile ottenere il limite superiore di un lati un 95% intervallo di confidenza (vale a dire, il limite inferiore è 0 ) sulla vera probabilità di fallimento entro un anno come 3 / N . Nel tuo caso, sei sicuro al 95% che la tariffa sia inferiore a 0,00003 .
Hai anche chiesto come calcolare la probabilità che uno o più dei successivi 10k falliscano. Un modo rapido e semplice (anche se estremo) per estendere l'analisi sopra è semplicemente usare il limite superiore come probabilità sottostante e usare il CDF binomiale corrispondente per ottenere la probabilità che non ci siano guasti. Usando il codice, potremmo fare :, che offre la possibilità di vedere uno o più guasti nei prossimi 10k prodotti. Avendo utilizzato il limite superiore, questa non è la stima del punto ottimale della probabilità di avere almeno un errore, piuttosto si può dire che è molto improbabile che la probabilità di ≥ 1 errore sia superiore a ≈ 26 %R
1-pbinom(0, size=10000, prob=0.00003)
0.2591851
(riconoscendo che si tratta di un inquadramento un po '"ondulato a mano"). Un'altra possibilità è quella di utilizzare il suggerimento di @ amoeba della stima dalla regola di successione di Laplace . La regola di successione afferma che la probabilità stimata di fallimento è , dove F è il numero di guasti. In tal caso, p = 9,9998 × 10 - 06 , e il calcolo per la probabilità prevista di 1 + fallimenti nel prossimo 10.000 è , cedendo , o1-pbinom(0, size=10000, prob=9.9998e-06)
0.09516122
.
Puoi prendere un approccio bayesiano. denota la probabilità di fallimento di e pensala come una variabile casuale. A priori, prima di vedere i risultati degli esperimenti, potresti credere che Θ ∼ U ( 0 , 1 ) . Se ti fidi degli ingegneri per rendere affidabile questo prodotto, forse puoi prendere Θ ∼ U ( 0 , 0,1 ) o giù di lì. Questo lo devi decidere tu. Quindi, puoi usare il teorema di Bayes per calcolare la distribuzione posteriore di θ . Indica A l'evento che hai osservato ( n esperimenti con zero errori).
Tutto è semplice:Θè uniforme, quindip(θ)è una costante. Dal momento che si eseguenesperimenti,p(A|θ)è solo la probabilità di nonguastiinnprove Bernouli con probabilità di fallimentoθ.
Una volta che hai sei oro: puoi calcolare la probabilità di qualsiasi evento B per integrazione: P ( B ) = ∫ p ( B | θ ) p ( θ | A ) d θ
Di seguito, lavoro attraverso una soluzione dettagliata, seguendo l'approccio sopra. Prenderò alcune scorciatoie standard.
Lascia che il precedente sia . Quindi: p ( θ | A ) ∝ p ( A | θ ) ⋅ 1 = ( 1 - θ ) n . La costante di normalizzazione p ( A ) = ∫ p ( A | θ ) p ( θ ) d θ è risultata essere B ( 1 , n
Indichiamo la probabilità di fallimenti in prodotti nel prossimo anno da B . La probabilità di almeno un errore è 1 - P ( B ) . Quindi 1 - P ( B ) = 1 - ∫ ( 1 - θ ) m ( 1 - θ ) n
che è circa , usando n = 100 , 000 , m = 10 , 000 . Non molto impressionante? Ho preso una distribuzione uniforme sulla probabilità di fallimento. Forse hai una maggiore fiducia nei tuoi ingegneri.
Invece di calcolare una probabilità, perché non prevedere quanti prodotti potrebbero non funzionare?
Formule comparabili possono essere utilizzate per il calcolo quando
Un limite di previsione superiore a (UPL) per il numero di guasti in quegli ultimi ticket, , è dato dal più piccolo (a seconda di ) per il quale .
L'UPL deve essere interpretato in termini di rischio di utilizzo di , come valutato prima che sia osservata o In altre parole, supponiamo che sia stato un anno fa e ti viene chiesto di raccomandare una procedura per prevedere il numero di guasti nei prossimi prodotti una volta osservati i primi . Chiede il tuo cliente
Qual è la possibilità che la tua procedura possa sottostimare ? Non intendo in futuro dopo che avrai più dati; Intendo proprio adesso, perché devo prendere delle decisioni proprio ora e le uniche possibilità che avrò a disposizione sono quelle che possono essere calcolate in questo momento. "
La tua risposta può essere,
In questo momento la possibilità non è maggiore di , ma se prevedi di utilizzare una previsione più piccola, la possibilità supererà .
Per , e possiamo calcolarlo
Quindi, dopo aver osservato ,
Per un massimo di confidenza (ovvero, quando ), prevedere che ci sarà al massimo errore nei prossimi prodotti.
Per una fiducia fino al (ovvero quando ), prevedere che ci saranno al massimo guasti nei prossimi prodotti.
Eccetera.
Quando e perché si dovrebbe applicare questo approccio? Supponiamo che la tua azienda produca molti prodotti diversi. Dopo aver osservato le prestazioni di di ciascuna sul campo, gli piace produrre garanzie, come "la sostituzione completa gratuita di eventuali guasti entro un anno". Avendo limiti di previsione per il numero di guasti è possibile controllare i costi totali di dover sostenere tali garanzie. Poiché produci molti prodotti e prevedi che i guasti siano dovuti a circostanze casuali al di fuori del tuo controllo, l'esperienza di ciascun prodotto sarà indipendente. Ha senso controllare il rischio a lungo termine. Di tanto in tanto potresti dover pagare più richieste del previsto, ma il più delle volte pagherai meno. Se pagare più di quanto annunciato potrebbe essere rovinoso, imposterai come estremamente piccolo (e probabilmente useresti anche un modello di fallimento più sofisticato!). Altrimenti, se i costi sono minori, puoi vivere con poca fiducia (high ). Questi calcoli mostrano come bilanciare fiducia e rischi.
Si noti che non è necessario calcolare la procedura completa . Attendiamo che venga osservata e quindi eseguiamo i calcoli per quella particolare (qui, ), come mostrato sopra. In linea di principio, tuttavia, avremmo potuto eseguire i calcoli per tutti i possibili valori di all'inizio.
Un approccio bayesiano (descritto in altre risposte) è attraente e funzionerà bene a condizione che i risultati non dipendano fortemente dal precedente. Sfortunatamente, quando il tasso di fallimento è così basso che si osservano pochissimi (o nessun errore), i risultati sono sensibili alla scelta del precedente.
Quella che segue è una risposta bayesiana a "Su 10.000 nuovi prodotti, quanti dovrebbero fallire se tutti gli ex 100.000 prodotti non fallissero?", Ma dovresti considerare la sensibilità a diversi priori.
Supponiamo che siano condizionatamente indipendenti e distribuiti in modo identico, dato , in modo tale che , e usi il coniugato precedente , con .
Per , abbiamo
Per , abbiamo in cui abbiamo usato .
Collegando i tuoi numeri, con un precedente uniforme ( ) ti aspetti un tasso di fallimento intorno al , mentre un precedente simile a Jeffreys ( ) ti dà un tasso di fallimento vicino al .
Questa aspettativa predittiva non sembra un buon riassunto, perché la distribuzione predittiva è fortemente distorta. Possiamo andare oltre e calcolare la distribuzione predittiva. Poiché condizionamento come abbiamo fatto prima di avere per .
Lo finirò più tardi calcolando un intervallo predittivo del .
Utilizzando l' approccio del problema dell'alba di Laplace , abbiamo la probabilità che un prodotto fallisca entro un anno . Successivamente, la probabilità che di nuovi prodotti non fallisca entro un anno è Quindi, la probabilità che almeno un prodotto di fallisca nel prossimo anno è Per il valore è . Nel caso di whuber , abbastanza alto, in effetti.
Naturalmente, dovresti continuare ad aggiornare i tuoi dati mentre vengono venduti più prodotti, alla fine uno fallirà.
Sono state fornite diverse risposte valide per questa domanda, ma recentemente ho avuto la possibilità di rivedere alcune risorse su questo argomento e quindi ho deciso di condividere i risultati.
Esistono diversi stimatori possibili per i dati a zero guasti. Indichiamo come numero di errori e come dimensione del campione. Lo stimatore di massima verosimiglianza per probabilità di fallimento dato questi dati è
Tale stima è piuttosto insoddisfacente dal momento che il fatto che non abbiamo osservato guasti nel nostro campione difficilmente dimostra che siano impossibili in generale. La conoscenza fuori dai dati suggerisce che esiste una certa probabilità di fallimento anche se non sono stati osservati (ancora). Avere una conoscenza a priori ci porta all'utilizzo dei metodi bayesiani recensiti da Bailey (1997), Razzaghi (2002), Basu et al (1996) e Ludbrook e Lew (2009).
Tra i semplici stimatori lo stimatore "limite superiore" che assume (Bailey, 1997)
che non sarebbe logico che uno stimatore di P nel caso di fallimento zero produca una probabilità superiore a quella prevista dallo stimatore di massima probabilità nel caso di un fallimento, un limite superiore ragionevole
definito come
può essere menzionato. Come rivisto da Ludbrook e Lew (2009), altre possibilità sono la "regola dei tre" (cfr. Qui , Wikipedia o Eypasch et al, 1995)
o altre varianti:
"regola del 3.7" di Newcombe e Altman (o del 3.6):
"nuova regola del quattro":
ma, come concluso da Ludbrook e Lew (2009), "la regola dei tre" è "quasi inutile" e "la regola di 3,6" (e 3,7) "ha gravi limitazioni - sono gravemente inaccurate se la dimensione iniziale del campione è inferiore a 50" e non raccomandano i metodi (3) - (6), suggerendo piuttosto di usare gli opportuni stimatori bayesiani (vedi sotto).
Tra gli stimatori bayesiani si possono citare diversi tipi. Il primo di questi stimatori suggerito da Bailey (1997) è
per stimare la mediana in uniforme prima
o per stimare la media sotto tale precedente
ancora un altro approccio che presuppone un modello di fallimento esponenziale con rendimenti a tasso di fallimento costante (distribuzioni di Poisson)
se usiamo beta precedente con i parametri di e possiamo usare la formula (vedi Razzaghi, 2002):
che sotto porta a un uniforme precedente (9). Supponendo che Jeffreys sia preceduto da cui conduce
Generalmente, si raccomandano le formule bayesiane (7) - (12). Basu et al (1996) raccomanda (11) con un precedente informativo, quando sono disponibili alcune conoscenze a priori. Poiché non esiste un singolo metodo migliore, suggerirei di rivedere la letteratura prima della tua analisi, specialmente quando è piccolo.
Bailey, RT (1997). Stima da dati zero-fallimento. Analisi del rischio, 17 , 375-380.
Razzaghi, M. (2002). Sulla stima della probabilità di successo binomiale con occorrenza zero nel campione. Journal of Modern Applied Statistical Methods, 1 (2), 41.
Ludbrook, J., & Lew, MJ (2009). Stimare il rischio di complicanze rare: la "regola dei tre" è abbastanza buona? Giornale di chirurgia ANZ, 79 (7‐8), 565-570.
Eypasch, E., Lefering, R., Kum, CK e Troidl, H. (1995). Probabilità di eventi avversi che non si sono ancora verificati: un promemoria statistico. BMJ 311 (7005): 619–620.
Basu, AP, Gaylor, DW e Chen, JJ (1996). Stima della probabilità di insorgenza di tumore per un tumore raro con zero occorrenza in un campione. Tossicologia e farmacologia regolatorie, 23 (2), 139-144.
Devi davvero tornare dai progettisti dei tuoi prodotti. È un problema di ingegneria fondamentale non statistico osservazionale. Avranno un'idea della probabilità di guasto di ciascun componente e da ciò la probabilità di guasto netto del prodotto assemblato totale. Possono darti il numero previsto di guasti durante l'intera vita di progettazione del prodotto.
Un ingegnere civile progetta un ponte per avere una vita progettuale di 120 anni. Ogni componente del ponte ha una leggera possibilità di guasto. Ogni caricamento ha una leggera possibilità di essere superato. Per rendere economico il ponte da costruire, il collasso totale avverrebbe solo una volta in 2400 anni, il che è molto più lungo del ponte per il quale verrà mantenuto. Non sorprende che il ponte non fallisca nell'anno 1, né nell'anno 2 fino all'anno 120. Ciò non è crollato, ti dice molto poco. Le sue varie possibilità di fallimento nel tempo possono essere stimate solo dai progettisti originali.
Questo è simile a un problema che ho incontrato quando abbiamo introdotto un nuovo processo di produzione per eliminare un guasto nella produzione.
Il nuovo sistema non ha prodotto guasti, quindi le persone hanno posto la stessa domanda: come possiamo prevedere il tasso di fallimento? Nel tuo caso, poiché hai stabilito un periodo durante il quale il guasto può verificarsi senza alcuna preoccupazione per quando il guasto si verifica entro tale periodo, gli effetti temporali sono stati rimossi. Ed è semplicemente il caso del fallimento o meno di qualcosa. Con quello stipulato - avanti con la mia risposta.
Intuitivamente, sembra che sia necessario almeno un errore per poter calcolare il tasso di errore. Tuttavia, questo assunto ha un errore implicito al suo interno. Non calcoleremo mai il tasso di fallimento. Questo perché abbiamo a che fare con un campione. Pertanto, possiamo solo stimare un intervallo di probabili tassi di fallimento. Il modo per farlo è trovare una distribuzione per il tasso di fallimento. La distribuzione che fa il lavoro in questa istanza è una distribuzione Beta in cui i parametri sono: α = n + 1 e β = N - n + 1
Nota: N è la dimensione del campione e n è il numero di errori (nel tuo caso 0)
Per il tuo scenario, la distribuzione del tasso di fallimento è mostrata di seguito. .
Quindi si dovrebbe alimentare quella distribuzione nella rispettiva formula di probabilità binomiale per ottenere una distribuzione per la probabilità di guasto di un'unità (potrebbe essere eseguita analiticamente o usando Monte Carlo). Sospetto che i numeri saranno molto bassi.
Nota che questo processo è applicabile indipendentemente dal numero di fallimenti nel tuo set di pugni.