Confuso sull'intervallo di confidenza

Sono confuso sul concetto di intervallo di confidenza. In particolare, supponiamo che esista una variabile gaussiana con conosciuta, e sono interessato al limite inferiore della media con un livello di confidenza del . $X \sim N(\mu, \sigma)$ $\sigma$ $\mu_L$ $95\%$

Farò l'esperimento per volte e osserverò , , , , . $5$ $X_1$ $X_2$ $X_3$ $X_4$ $X_5$

Opzione 1: tratto ogni campione separatamente e posso calcolare per ogni . E poi suppongo che ci sia un modo (non so come) per calcolare il limite inferiore effettivo da questi 5 . $\mu_L = X_i - \sigma z$ $X_i$ $\mu_L$

Opzione 2: D'altra parte, se prendo , posso calcolare . (supponendo che sia normale, possiamo usare anche t-stat.) $T = (X_1+X_2+X_3+X_4+X_5)/5$ $\mu_L = T - \sigma/\sqrt{5}z$ $T$

Esiste un metodo diverso dall'opzione 2 per calcolare un limite inferiore basato sui campioni? E per l'opzione 1, c'è un modo per calcolare il limite inferiore in base ai 5 limiti inferiori calcolati? $5$

confidence-interval

— calbear
fonte

Questa è una grande domanda perché esplora la possibilità di procedure alternative e ci chiede di pensare al perché e al modo in cui una procedura potrebbe essere superiore a un'altra.

La risposta breve è che ci sono infiniti modi in cui possiamo escogitare una procedura per ottenere un limite di confidenza più basso per la media, ma alcuni di questi sono migliori e altri sono peggiori (in un senso che è significativo e ben definito). L'opzione 2 è una procedura eccellente, poiché una persona che la utilizza dovrebbe raccogliere meno della metà dei dati di una persona che utilizza l'opzione 1 per ottenere risultati di qualità comparabile. Metà della quantità di dati in genere significa metà del budget e metà del tempo, quindi stiamo parlando di una differenza sostanziale ed economicamente importante. Ciò fornisce una dimostrazione concreta del valore della teoria statistica.

Piuttosto che ripassare la teoria, di cui esistono molti eccellenti resoconti di libri di testo, esploriamo rapidamente tre procedure di limite inferiore di fiducia (LCL) per variate normali indipendenti di deviazione standard nota. Ho scelto tre naturali e promettenti suggeriti dalla domanda. Ognuno di essi è determinato dal livello di confidenza desiderato : $n$ $1-\alpha$

Opzione 1a, la procedura "min" . Il limite di confidenza inferiore è impostato uguale a . Il valore del numero è determinato in modo tale che la possibilità che superi la media reale sia solo ; cioè, . $t_{\min} = \min(X_1, X_2, \ldots, X_n) - k^{\min}_{\alpha, n, \sigma} \sigma$ $k^{\min}_{\alpha, n, \sigma}$ $t_{\min}$ $\mu$ $\alpha$ $\Pr(t_{\min} \gt \mu) = \alpha$
Opzione 1b, la procedura "max" . Il limite di confidenza inferiore è impostato uguale a . Il valore del numero è determinato in modo che la possibilità che superi la media reale sia solo ; cioè, . $t_{\max} = \max(X_1, X_2, \ldots, X_n) - k^{\max}_{\alpha, n, \sigma} \sigma$ $k^{\max}_{\alpha, n, \sigma}$ $t_{\max}$ $\mu$ $\alpha$ $\Pr(t_{\max} \gt \mu) = \alpha$
Opzione 2, la procedura "media" . Il limite di confidenza inferiore è impostato uguale a . Il valore del numero è determinato in modo che la possibilità che superi la media reale sia solo ; cioè, . $t_\text{mean} = \text{mean}(X_1, X_2, \ldots, X_n) - k^\text{mean}_{\alpha, n, \sigma} \sigma$ $k^\text{mean}_{\alpha, n, \sigma}$ $t_\text{mean}$ $\mu$ $\alpha$ $\Pr(t_\text{mean} \gt \mu) = \alpha$

Come è noto, dove ; è la funzione di probabilità cumulativa della distribuzione normale standard. Questa è la formula citata nella domanda. Una scorciatoia matematica è $k^\text{mean}_{\alpha, n, \sigma} = z_\alpha/\sqrt{n}$ $\Phi(z_\alpha) = 1-\alpha$ $\Phi$

$k^\text{mean}_{\alpha, n, \sigma} = \Phi^{-1}(1-\alpha)/\sqrt{n}.$

Le formule per le procedure min e max sono meno note ma facili da determinare:

$k^\text{min}_{\alpha,n,\sigma} = \Phi^{-1}(1-\alpha^{1/n})$ .
$k^\text{max}_{\alpha, n, \sigma} = \Phi^{-1}((1-\alpha)^{1/n})$ .

Tramite una simulazione, possiamo vedere che tutte e tre le formule funzionano. Il Rcodice seguente conduce l'esperimento n.trialstempi separati e riporta tutte e tre le LCL per ogni prova:

simulate <- function(n.trials=100, alpha=.05, n=5) {
  z.min <- qnorm(1-alpha^(1/n))
  z.mean <- qnorm(1-alpha) / sqrt(n)
  z.max <- qnorm((1-alpha)^(1/n))
  f <- function() {
    x <- rnorm(n); 
    c(max=max(x) - z.max, min=min(x) - z.min, mean=mean(x) - z.mean)
  }    
  replicate(n.trials, f())
}

(Il codice non si preoccupa di lavorare con le distribuzioni normali generali: poiché siamo liberi di scegliere le unità di misura e lo zero della scala di misurazione, è sufficiente studiare il caso , Ecco perché nessuna delle formule per i vari dipende in realtà da .) $\mu=0$ $\sigma=1$ $k^*_{\alpha,n,\sigma}$ $\sigma$

10.000 prove forniranno una precisione sufficiente. Eseguiamo la simulazione e calcoliamo la frequenza con cui ogni procedura non riesce a produrre un limite di confidenza inferiore alla media reale:

set.seed(17)
sim <- simulate(10000, alpha=.05, n=5)
apply(sim > 0, 1, mean)

L'output è

   max    min   mean 
0.0515 0.0527 0.0520

Queste frequenze sono abbastanza vicine al valore stabilito di che possiamo essere soddisfatti che tutte e tre le procedure funzionano come pubblicizzato: ognuna di esse produce un limite di confidenza inferiore del 95% per la media. $\alpha=.05$

(Se temi che queste frequenze differiscano leggermente da , puoi eseguire più prove. Con un milione di prove, si avvicinano ancora di più a : .) $.05$ $.05$ $(0.050547, 0.049877, 0.050274)$

Tuttavia, una cosa che vorremmo riguardo a qualsiasi procedura LCL è che non solo dovrebbe essere corretta la proporzione di tempo prevista, ma dovrebbe tendere ad essere vicina alla correzione. Ad esempio, immagina uno statistico (ipotetico) che, in virtù di una profonda sensibilità religiosa, può consultare l'oracolo di Delfi (di Apollo) invece di raccogliere i dati e fare un calcolo LCL. Quando chiede al dio un LCL al 95%, il dio divinerà il vero mezzo e glielo dirà - dopotutto, è perfetto. Ma, poiché il dio non desidera condividere pienamente le sue capacità con l'umanità (che deve rimanere fallibile), il 5% delle volte darà un LCL che è $X_1, X_2, \ldots, X_n$ $100\sigma$ troppo alto. Questa procedura Delphic è anche una LCL al 95%, ma sarebbe spaventosa da usare in pratica a causa del rischio che producesse un limite davvero orribile.

Siamo in grado di valutare l'accuratezza delle nostre tre procedure LCL. Un buon modo è quello di guardare alle loro distribuzioni di campionamento: equivalentemente, faranno anche istogrammi di molti valori simulati. Eccoli. Prima però, il codice per produrli:

dx <- -min(sim)/12
breaks <- seq(from=min(sim), to=max(sim)+dx, by=dx)
par(mfcol=c(1,3))
tmp <- sapply(c("min", "max", "mean"), function(s) {
  hist(sim[s,], breaks=breaks, col="#70C0E0", 
       main=paste("Histogram of", s, "procedure"), 
       yaxt="n", ylab="", xlab="LCL");
  hist(sim[s, sim[s,] > 0], breaks=breaks, col="Red", add=TRUE)
})

Gli istogrammi

Sono mostrati su identici assi x (ma assi verticali leggermente diversi). Ciò che ci interessa sono

Le porzioni rosse a destra di cui aree rappresentano la frequenza con cui le procedure non riescono a sottostimare la media - sono quasi uguali alla quantità desiderata, . (Lo avevamo già confermato numericamente.) $0$ $\alpha=.05$
Gli spread dei risultati della simulazione. Evidentemente, l'istogramma più a destra è più stretto degli altri due: descrive una procedura che effettivamente sottostima la media (uguale a ) nel % delle volte, ma anche quando lo fa, quella sottovalutazione è quasi sempre entro del vero significato. Gli altri due istogrammi hanno una propensione a sottostimare un po 'di più la vera media, fino a circa troppo basso. Inoltre, quando sopravvalutano la media vera, tendono a sovrastimarla con la procedura più giusta. Queste qualità le rendono inferiori all'istogramma più a destra. $0$ $95$ $2 \sigma$ $3\sigma$

L'istogramma più a destra descrive l'opzione 2, la procedura convenzionale LCL.

Una misura di questi spread è la deviazione standard dei risultati della simulazione:

> apply(sim, 1, sd)
     max      min     mean 
0.673834 0.677219 0.453829

Questi numeri ci dicono che le procedure max e min hanno spread uguali (di circa ) e la normale, media , procedura ha solo due terzi del loro spread (di circa ). Ciò conferma l'evidenza dei nostri occhi. $0.68$ $0.45$

I quadrati delle deviazioni standard sono le varianze, rispettivamente pari a , e . Le varianze possono essere correlate alla quantità di dati : se un analista raccomanda la procedura massima (o minima ), quindi, al fine di ottenere la diffusione ridotta mostrata dalla normale procedura, i loro clienti dovrebbero ottenere volte più dati - oltre il doppio. In altre parole, utilizzando l'opzione 1, pagheresti più del doppio delle tue informazioni rispetto all'opzione 2. $0.45$ $0.45$ $0.20$ $0.45/0.21$

— whuber
fonte

Non mancherai mai di stupirmi.

— Momo,

+1 @whuber Questa è una bella illustrazione. Nel descrivere gli intervalli di confidenza del bootstrap, Efron parla di accuratezza e correttezza. La precisione è che il vero livello di confidenza dell'intervallo è vicino al valore pubblicizzato. I tuoi 3 esempi sono tutti accurati. La correttezza si riferisce al meglio. Per un intervallo di confidenza bilaterale ciò significherebbe uno preciso con la larghezza più breve (l'intervallo o il limite in base alla media nel tuo caso). Il tuo esempio è interessante perché i tre metodi sono almeno in qualche modo competitivi.

— Michael R. Chernick,

L'opzione 1 dei PO non è vicina alla competitività per i motivi che ho indicato nella mia risposta.

— Michael R. Chernick,

@Michael Sono d'accordo che la tua interpretazione dell'Opzione 1 non è competitiva. Ciò che ho trovato interessante - ed esplorato qui - è che ci sono alcune interpretazioni più valide di come si possa "calcolare il limite inferiore effettivo" da cinque distinti, due dei quali ho esaminato qui. Probabilmente avrei dovuto esaminare attentamente anche un'opzione "mediana": non sarà terribilmente inferiore al solito calcolo (circa il 40% in meno di efficienza).

— whuber

La prima opzione non tiene conto della varianza ridotta ottenuta dal campione La prima opzione offre cinque limiti di confidenza inferiori del 95% per la media in base a un campione di dimensione 1 in ciascun caso. La combinazione di essi mediante la media non crea un limite che è possibile interpretare come un limite inferiore del 95%. Nessuno lo farebbe. La seconda opzione è ciò che viene fatto. La media delle cinque osservazioni indipendenti ha una varianza inferiore di un fattore 6 rispetto alla varianza per un singolo campione. Ti dà quindi un limite inferiore molto migliore di uno qualsiasi dei cinque calcolati nel primo modo.

Anche se X può essere assunto come normale, allora T sarà normale. $_i$

— Michael R. Chernick
fonte