Intervallo di confidenza attorno alla stima binomiale di 0 o 1


36

Qual è la tecnica migliore per calcolare un intervallo di confidenza di un esperimento binomiale, se la tua stima è che (o similmente ) e la dimensione del campione è relativamente piccola, ad esempio ?p=0p=1n=25


Quanto vicino allo zero è p ? È zero spesso, o nell'ordine di 0,001, o 0,01 o ...? E quanti dati hai? p^
jbowman,

Di solito abbiamo più di 800 prove. Noi di solito aspettiamo 0-0,1 per pp^
AI2.0

Usa l'intervallo Clopper-Pearson che hai collegato. Il principio generale: prova prima l'intervallo Clopper-Pearson. Se il computer non è in grado di ottenere la risposta, provare il metodo di approssimazione, ad esempio l'approssimazione normale. Secondo l'attuale velocità del computer, non credo che abbiamo bisogno di approssimazione sulla maggior parte delle situazioni.
user158565

Per ottenere solo il limite superiore dell'intervallo di confidenza con ( livello di confidenza 1- , useremo solo B (1− α ; x + 1, n − x) dove x è il numero di successi (o fallimenti), n è la dimensione del campione. In Python, usiamo solo . Se questo è VERO, possiamo concludere che siamo sicuri 1– α che il limite superiore è limitato dal valore da cui calcoliamo ?ααscipy.stats.beta.ppf(1−$\alpha$;x+1,n−x) αscipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)
AI2.0

1
Con 800 prove, la consueta approssimazione normale funzionerà ragionevolmente bene fino a circa (le mie simulazioni hanno indicato una copertura effettiva del 94,5% di un intervallo di confidenza del 95%.) A 1000 prove e p = 0,01 , la copertura effettiva era di circa il 92,7% (tutti basati su 100.000 repliche.) Quindi questo è solo un problema per p molto basso , dato il conteggio delle prove. p=0.015p=0.01p
jbowman,

Risposte:


53

Non utilizzare l'approssimazione normale

Molto è stato scritto su questo problema. Un consiglio generale è di non usare mai l'approssimazione normale (cioè l'intervallo di confidenza asintotico / Wald), poiché ha proprietà di copertura terribili. Codice R per illustrare questo:

library(binom)
p = seq(0,1,.001)
coverage = binom.coverage(p, 25, method="asymptotic")$coverage
plot(p, coverage, type="l")
binom.confint(0,25)
abline(h=.95, col="red")

Probabilità di copertura per intervalli di confidenza asintotici per una proporzione binomiale.

Per piccole probabilità di successo, potresti chiedere un intervallo di confidenza del 95%, ma in realtà ottenere un intervallo di confidenza del 10%!

raccomandazioni

Quindi cosa dovremmo usare? Credo che le attuali raccomandazioni siano quelle elencate nel documento Interval Stimation for a Binomial Proportion di Brown, Cai e DasGupta in Statistical Science 2001, vol. 16, n. 2, pagine 101–133. Gli autori hanno esaminato diversi metodi per il calcolo degli intervalli di confidenza e sono giunti alla seguente conclusione.

[W] raccomandiamo l'intervallo Wilson o l'intervallo precedente di Jeffreys dalla coda uguale per la piccola n e l'intervallo suggerito in Agresti e Coull per n più grande .

L'intervallo di Wilson viene talvolta chiamato intervallo di punteggio , poiché si basa sull'inversione di un test di punteggio.

Calcolo degli intervalli

Per calcolare questi intervalli di confidenza, è possibile utilizzare questo calcolatore online o la binom.confint()funzione nel binompacchetto in R. Ad esempio, per 0 successi in 25 prove, il codice R sarebbe:

> binom.confint(0, 25, method=c("wilson", "bayes", "agresti-coull"),
  type="central")
         method x  n  mean  lower upper
1 agresti-coull 0 25 0.000 -0.024 0.158
2         bayes 0 25 0.019  0.000 0.073
3        wilson 0 25 0.000  0.000 0.133

Ecco bayesl'intervallo Jeffreys. (L'argomento type="central"è necessario per ottenere l' intervallo di coda uguale .)

Si noti che è necessario decidere su quale dei tre metodi si desidera utilizzare prima di calcolare l'intervallo. Guardare tutti e tre e selezionare il più breve ti darà naturalmente una probabilità di copertura troppo piccola.

Una risposta rapida e approssimativa

Come nota finale, se osservi esattamente zero successi nelle tue n prove e desideri solo un intervallo di confidenza approssimativo molto rapido, puoi usare la regola di tre . Basta dividere il numero 3 per n . Nell'esempio precedente n è 25, quindi il limite superiore è 3/25 = 0,12 (il limite inferiore è ovviamente 0).


Grazie mille per la tua risposta. Immagina questo esempio di vita reale: un architetto deve testare in un grattacielo se tutti i pannelli isolanti nei soffitti sono installati correttamente. Apre 25 pannelli per soffitti su una selezione casuale di piani e trova soprattutto l'isolamento di questi pannelli per soffitti. Quindi possiamo concludere che la reale probabilità di avere un pannello isolante è con certezza del 95% tra CI [0,867 a 1] in base all'intervallo del punteggio Wilson?
Kasper,

2
Non direi che puoi concluderlo con "95% di certezza" (Google per "interpretazione corretta degli intervalli di confidenza"). Inoltre, questo si basa sul presupposto di prove indipendenti con pari probabilità di successo, che qui potrebbero non essere realistiche. Forse gli ultimi pannelli installati avevano un rischio maggiore di essere installati in modo errato (la persona che li stava installando si stancava / annoia). O forse i primi erano, poiché la persona era meno esperta allora. Ad ogni modo, se all'architetto è stato detto di testare se tutti i pannelli sono installati correttamente, dovrebbe fare il suo lavoro, non solo testare un campione!
Karl Ove Hufthammer,

5
bayesusa l'uniforme precedente (anziché quella di Jeffrey) quando entrambi i parametri di forma sono 1. Ho inviato un'e-mail al manutentore del pacchetto binom per curiosità sui (dis) vantaggi di Jeffrey rispetto all'uniforme precedente e mi ha detto che una nuova versione utilizzerà l'uniforme prima di default. Quindi non chiederti se i risultati potrebbero variare leggermente in futuro.
cbeleites supporta Monica

3
Questa è una risposta eccellente Trasmette tutte le informazioni chiave che puoi leggere in articoli sull'argomento, ma in modo molto conciso e chiaro. Se potessi votare due volte lo farei.
SigmaX,

6
Il binconfmetodo in Hmisccalcola anche questi intervalli. L'impostazione predefinita è il metodo Wilson.
SigmaX,

0

p±zα/2p(1p)/nπ0π0π0

|pπ0|p(1p)/n=0
(1+z02/n)π02+(2pz02/n)π0+p2=0


1
π0

π0pn

Questo è Agresti.
Nick Cox,

@NickCox è un lavoro diverso
Jay Schyler Raadt,

1
Alan Agresti ha pubblicato vari testi. Immagino tu stia alludendo a An Introduction to Categorical Data Analysis (2a edizione 2007; 3a edizione prevista per la pubblicazione di ottobre 2018 e che potrebbe contenere una data del 2019) di John Wiley.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.