Intervallo di confidenza per il campionamento di Bernoulli


42

Ho un campione casuale di variabili casuali di Bernoulli , dove sono iidrv e , e è un parametro sconosciuto.X i P ( X i = 1 ) = p pX1...XNXiP(Xi=1)=pp

Ovviamente, si può trovare una stima per : .p : = ( X 1 + + X N ) / Npp^:=(X1++XN)/N

La mia domanda è: come posso creare un intervallo di confidenza per ?p


2
La Wikipedia ha dettagli su come calcolare gli intervalli di confidenza per il campionamento di bernoulli .

Risposte:


52
  • Se la media, , non è vicina a o e la dimensione del campione è sufficientemente grande (ovvero e , la sicurezza l'intervallo può essere stimato mediante una distribuzione normale e l'intervallo di confidenza costruito così: 10nn p >5n(1 - p )>5p^10nnp^>5n(1p^)>5

    p^±z1α/2p^(1p^)n
  • Se e , l' intervallo di confidenza al è approssimativamente (Javanovic e Levy, 1997) ; l'opposto vale per . Il riferimento discute anche dell'uso di e (i successivi per incorporare informazioni precedenti).n>3095%[0,3p^=0n>3095%[0,3n] n+1n+bp^=1n+1n+b

  • Altrimenti Wikipedia fornisce una buona panoramica e indica Agresti e Couli (1998) e Ross (2003) per dettagli sull'uso di stime diverse dall'approssimazione normale, il punteggio Wilson, Clopper-Pearson o intervalli Agresti-Coull. Questi possono essere più precisi quando non vengono soddisfatte le assunzioni di cui sopra su e .pnp^

R fornisce funzioni binconf {Hmisc}e binom.confint {binom}che può essere utilizzato nel modo seguente:

set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')

Agresti, Alan; Coull, Brent A. (1998). "L'approssimato è meglio di 'esatto' per la stima dell'intervallo delle proporzioni binomiali". The American Statistician 52: 119–126.

Jovanovic, BD e PS Levy, 1997. Uno sguardo alla regola dei tre. The American Statistician Vol. 51, n. 2, pagg. 137-139

Ross, TD (2003). "Intervalli di confidenza accurati per la proporzione binomiale e la stima del tasso di Poisson". Computer in biologia e medicina 33: 509–531.


3
(+1) Bella risposta. Questo diventerà un riferimento per domande simili in futuro, penso. Tuttavia, il cross-posting è insolito; in effetti, credo che sia disapprovato, perché rovina molti aspetti del sistema di feedback / referencing / threading / commenting. Prendi in considerazione la possibilità di rimuovere una delle copie e di sostituirla con un link in un commento.
whuber

@whuber grazie per il feedback. Ho rimosso l'altra copia.
David LeBauer,

Nella prima formula, cosa sono z1 e alpha?
Cirdec,

Ho trovato la risposta alla mia domanda: è il percentile della distribuzione normale standard e è il percentile di errore. en.wikipedia.org/wiki/Binomial_proportion_confidence_interval 1 - α / 2 αz1α/21α/2α
Cirdec

Dovrebbe essere sull'intervallo di confidenza per il secondo punto elenco? 3/n
Juan A. Navarro,

7

Intervalli di confidenza della massima verosimiglianza

L'approssimazione normale al campione di Bernoulli si basa sull'avere una dimensione del campione relativamente grande e proporzioni del campione lontane dalle code. La stima della massima verosimiglianza si concentra sulle probabilità trasformate nel log e questo fornisce intervalli non simmetrici ed efficienti per che dovrebbe essere usato invece.p

Definisci le probabilità del registro comeβ^0=log(p^/(1p^))

Un 1- per è dato da:αβ0

CI(β0)α=β^0±Zα/21/(np^(1p^)

E questo viene di nuovo trasformato in un intervallo (non simmetrico) per con:p

CI(p)α=1/(1+exp(CI(β0)α)

Questo CI ha il vantaggio aggiuntivo che le proporzioni si trovano nell'intervallo tra 0 o 1 e che l'IC è sempre più stretto dell'intervallo normale pur essendo del livello corretto. Puoi ottenerlo facilmente in R specificando:

set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))

    2.5 %    97.5 % 
0.2795322 0.4670450 

Intervalli di confidenza binomiali esatti

Nei piccoli campioni, l'approssimazione normale all'MLE - sebbene migliore dell'approssimazione normale alla proporzione del campione - potrebbe non essere affidabile. Va bene. può essere preso per seguire una densità binomiale . I limiti per possono essere trovati prendendo il 2,5 ° e il 97,5 ° percentile da questa distribuzione.Y=np^(n,p)p^

CIα=(Fp^1(0.025),Fp^1(0.975))

Raramente possibile a mano, un esatto intervallo di confidenza binomiale può essere ottenuto per usando metodi computazionali.p

qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47

Intervalli di confidenza imparziali imparziali

E se è esattamente 0 o 1, uno stimatore imparziale mediano può essere usato per ottenere stime di intervallo non singolari basate sulla funzione di probabilità imparziale mediana. Puoi banalmente prendere il limite inferiore del caso all-0 come 0 WLOG. Il limite superiore è qualsiasi proporzione che soddisfa:pp1α/2

p1α/2:P(Y=0)/2+P(Y>y)>0.975

Questa è anche una routine computazionale.

set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
  0.5*dbinom(0, 100, p) + 
    pbinom(1, 100, p, lower.tail = F) - 
    0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)

[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability

Gli ultimi due metodi sono implementati nel epitoolspacchetto in R.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.