Gli intervalli di confidenza al 50% sono stimati in modo più efficace rispetto agli intervalli di confidenza al 95%?

30

La mia domanda scaturisce da questo commento su un post sul blog di Andrew Gelman in cui sostiene l'uso di intervalli di confidenza al 50% invece di intervalli di confidenza al 95%, sebbene non sulla base del fatto che sono stimati in modo più robusto:

Preferisco intervalli dal 50% al 95% per 3 motivi:

Stabilità computazionale,

Valutazione più intuitiva (metà degli intervalli del 50% dovrebbe contenere il valore reale),

Un senso che nelle applicazioni è meglio avere un'idea di dove saranno i parametri e i valori previsti, non tentare una irrealistica quasi certezza.

L'idea del commentatore sembra essere che i problemi con le ipotesi alla base della costruzione dell'intervallo di confidenza avranno un impatto maggiore se si tratta di un IC al 95% che se si tratta di un IC al 50%. Tuttavia, non spiega davvero perché.

[...] man mano che vai a intervalli più ampi, diventi più sensibile in generale ai dettagli o alle ipotesi del tuo modello. Ad esempio, non crederesti mai di aver identificato correttamente l'intervallo del 99,9995%. O almeno questa è la mia intuizione. Se è giusto, sostiene che il 50 percento dovrebbe essere stimato meglio del 95 percento. O forse una stima "più robusta", dal momento che è meno sensibile alle ipotesi sul rumore, forse?

È vero? Perché perché no?

confidence-interval assumptions robust

— user1205901 - Ripristina Monica
fonte

Di solito sì, livelli di confidenza inferiori sono più robusti. Considera di stimare una mediana rispetto al 99 percentile su un campione con 100 osservazioni. Ogni singola grande osservazione si sposterà del 99 percentile, mentre la mediana non si muoverà molto. Sono sicuro che puoi trovare un contro esempio, ma sembrerà insolito.

— Aksakal,

19

Questa risposta analizza il significato della citazione e offre i risultati di uno studio di simulazione per illustrarla e aiutare a capire cosa potrebbe cercare di dire. Lo studio può essere facilmente esteso da chiunque (con Rabilità rudimentali ) per esplorare altre procedure di intervallo di confidenza e altri modelli.

In questo lavoro sono emerse due questioni interessanti. Uno riguarda come valutare l'accuratezza di una procedura di intervallo di confidenza. L'impressione che si ottiene dalla solidità dipende da quello. Visualizzo due diverse misure di precisione in modo da poterle confrontare.

L'altro problema è che sebbene una procedura di intervallo di confidenza con scarsa confidenza possa essere solida, i limiti di confidenza corrispondenti potrebbero non essere affatto solidi. Gli intervalli tendono a funzionare bene perché gli errori che fanno ad una estremità spesso controbilanciano gli errori che fanno all'altra. In pratica, puoi essere abbastanza sicuro che circa la metà dei tuoi intervalli di confidenza al copre i loro parametri, ma il parametro reale potrebbe trovarsi costantemente vicino a una fine particolare di ogni intervallo, a seconda di come la realtà si discosta dalle ipotesi del tuo modello. $50\%$

Robusto ha un significato standard nelle statistiche:

La robustezza implica generalmente insensibilità alle deviazioni dalle ipotesi che circondano un modello probabilistico sottostante.

(Hoaglin, Mosteller e Tukey, Understanding Robust and Exploratory Data Analysis . J. Wiley (1983), p. 2.)

Ciò è coerente con la citazione nella domanda. Per comprendere la citazione dobbiamo ancora conoscere lo scopo previsto di un intervallo di confidenza. A tal fine, rivediamo cosa ha scritto Gelman.

Preferisco intervalli dal 50% al 95% per 3 motivi:

Stabilità computazionale,

Valutazione più intuitiva (metà degli intervalli del 50% dovrebbe contenere il valore reale),

Una sensazione che nelle applicazioni è meglio avere un'idea di dove saranno i parametri e i valori previsti, non tentare una quasi irrealistica quasi certezza.

Poiché ottenere un senso dei valori previsti non è ciò a cui sono destinati gli intervalli di confidenza (CI), mi concentrerò sull'ottenere un senso dei valori dei parametri , che è ciò che fanno gli EC. Chiamiamo questi valori "target". Quindi, per definizione, un CI è destinato a coprire il suo obiettivo con una probabilità specificata (il suo livello di confidenza). Il raggiungimento dei tassi di copertura previsti è il criterio minimo per valutare la qualità di qualsiasi procedura di IC. (Inoltre, potremmo essere interessati alle larghezze tipiche degli elementi della configurazione. Per mantenere il post a una lunghezza ragionevole, ignorerò questo problema.)

Queste considerazioni ci invitano a studiare quanto un calcolo dell'intervallo di confidenza potrebbe trarci in inganno riguardo al valore del parametro target. La citazione potrebbe essere interpretata nel senso che suggerisce che gli elementi della configurazione a bassa confidenza potrebbero conservare la loro copertura anche quando i dati sono generati da un processo diverso dal modello. È qualcosa che possiamo testare. La procedura è:

Adotta un modello di probabilità che includa almeno un parametro. Quello classico è il campionamento da una distribuzione normale di media e varianza sconosciute.
Selezionare una procedura CI per uno o più parametri del modello. Un eccellente costruisce l'IC dalla media campionaria e dalla deviazione standard del campione, moltiplicando quest'ultima per un fattore dato da una distribuzione t di Student.
Applicare tale procedura a vari modelli diversi - non allontanandosi troppo da quello adottato - per valutare la sua copertura su una gamma di livelli di confidenza.

Ad esempio, ho fatto proprio questo. Ho permesso alla distribuzione sottostante di variare su un'ampia gamma, da quasi Bernoulli, a Uniform, a Normal, a Exponential e fino a Lognormal. Questi includono distribuzioni simmetriche (le prime tre) e fortemente distorte (le ultime due). Per ogni distribuzione ho generato 50.000 campioni di dimensione 12. Per ogni campione ho creato elementi di configurazione a due lati di livelli di confidenza tra il e il , che copre la maggior parte delle applicazioni. $50\%$ $99.8\%$

Sorge ora un problema interessante: come dovremmo misurare quanto bene (o quanto male) sta eseguendo una procedura di CI? Un metodo comune valuta semplicemente la differenza tra la copertura effettiva e il livello di confidenza. Questo può sembrare sospettosamente buono per alti livelli di confidenza. Ad esempio, se stai cercando di ottenere il 99,9% di confidenza ma ottieni solo il 99% di copertura, la differenza grezza è solo dello 0,9%. Tuttavia, ciò significa che la procedura non riesce a coprire l'obiettivo dieci volte più spesso di quanto dovrebbe! Per questo motivo, un modo più informativo di confrontare le coperture dovrebbe usare qualcosa come gli odds ratio. Uso le differenze di logit, che sono i logaritmi dei rapporti di probabilità. In particolare, quando il livello di confidenza desiderato è e la copertura effettiva è $\alpha$ $p$ , poi

\log (\frac{p}{1 - p}) - \log (\frac{α}{1 - α})

$\log\left(\frac{p}{1-p}\right) - \log\left(\frac{\alpha}{1-\alpha}\right)$

cattura bene la differenza. Quando è zero, la copertura è esattamente il valore previsto. Quando è negativo, la copertura è troppo bassa, il che significa che l'IC è troppo ottimista e sottovaluta l'incertezza.

La domanda, quindi, è come variano questi tassi di errore con il livello di confidenza quando il modello sottostante è perturbato? Possiamo rispondere tracciando i risultati della simulazione. Queste trame quantificano quanto "irrealistico" la "quasi certezza" di un elemento della configurazione potrebbe essere in questa applicazione archetipica.

La grafica mostra gli stessi risultati, ma quello a sinistra mostra i valori sulle scale logit mentre quello a destra usa le scale grezze. La distribuzione Beta è una Beta (che è praticamente una distribuzione di Bernoulli). La distribuzione lognormale è l'esponenziale della distribuzione normale standard. La distribuzione normale è inclusa per verificare che questa procedura CI raggiunga davvero la sua copertura prevista e per rivelare quanta variazione aspettarsi dalle dimensioni finite della simulazione. (In effetti, i grafici per la distribuzione normale sono comodamente vicini allo zero, senza mostrare deviazioni significative.) $(1/30,1/30)$

È chiaro che sulla scala del logit, le coperture diventano più divergenti con l'aumentare del livello di confidenza. Vi sono tuttavia alcune interessanti eccezioni. Se non ci preoccupiamo delle perturbazioni del modello che introducono asimmetria o lunghe code, allora possiamo ignorare l'esponenziale e il lognormale e concentrarci sul resto. Il loro comportamento è irregolare fino a quando supera il o giù di lì (un logit di ), a quel punto si è verificata la divergenza. $\alpha$ $95\%$ $3$

Questo piccolo studio porta una certa concretezza all'affermazione di Gelman e illustra alcuni dei fenomeni che avrebbe potuto pensare. In particolare, quando stiamo usando una procedura CI con un livello di confidenza basso, come , quindi anche quando il modello sottostante è fortemente perturbato, sembra che la copertura sarà ancora vicina al : il nostro sentendo che tale IC sarà corretto circa la metà del tempo e scorretto l'altra metà sarà confermata. È robusto . Se invece speriamo di avere ragione, diciamo, il delle volte, il che significa che vogliamo davvero sbagliare solo il $\alpha=50\%$ $50\%$ $95\%$ $5\%$ del tempo, quindi dovremmo essere pronti a rendere il nostro tasso di errore molto maggiore nel caso in cui il mondo non funzioni esattamente come suppone il nostro modello.

Per inciso, questa proprietà del IC è valida in gran parte perché stiamo studiando intervalli di confidenza simmetrici . Per le distribuzioni distorte, i limiti di confidenza individuali possono essere terribili (e non del tutto robusti), ma i loro errori spesso si annullano. Tipicamente una coda è corta e l'altra lunga, portando a una copertura eccessiva da un lato e una copertura insufficiente dall'altro. Ritengo che i limiti di confidenza del non saranno così robusti quanto gli intervalli corrispondenti. $50\%$ $50\%$

Questo è il Rcodice che ha prodotto i grafici. È prontamente modificato per studiare altre distribuzioni, altri intervalli di confidenza e altre procedure di CI.

#
# Zero-mean distributions.
#
distributions <- list(Beta=function(n) rbeta(n, 1/30, 1/30) - 1/2,
                      Uniform=function(n) runif(n, -1, 1),
                      Normal=rnorm, 
                      #Mixture=function(n) rnorm(n, -2) + rnorm(n, 2),
                      Exponential=function(n) rexp(n) - 1,
                      Lognormal=function(n) exp(rnorm(n, -1/2)) - 1
)
n.sample <- 12
n.sim <- 5e4
alpha.logit <- seq(0, 6, length.out=21); alpha <- signif(1 / (1 + exp(-alpha.logit)), 3)
#
# Normal CI.
#
CI <- function(x, Z=outer(c(1,-1), qt((1-alpha)/2, n.sample-1))) 
  mean(x) + Z * sd(x) / sqrt(length(x))
#
# The simulation.
#
#set.seed(17)
alpha.s <- paste0("alpha=", alpha)
sim <- lapply(distributions, function(dist) {
  x <- matrix(dist(n.sim*n.sample), n.sample)
  x.ci <- array(apply(x, 2, CI), c(2, length(alpha), n.sim),
                dimnames=list(Endpoint=c("Lower", "Upper"),
                              Alpha=alpha.s,
                              NULL))
  covers <- x.ci["Lower",,] * x.ci["Upper",,] <= 0
  rowMeans(covers)
})
(sim)
#
# The plots.
#
logit <- function(p) log(p/(1-p))
colors <- hsv((1:length(sim)-1)/length(sim), 0.8, 0.7)
par(mfrow=c(1,2))         
plot(range(alpha.logit), c(-2,1), type="n", 
     main="Confidence Interval Accuracies (Logit Scales)", cex.main=0.8,
     xlab="Logit(alpha)", 
     ylab="Logit(coverage) - Logit(alpha)")
abline(h=0, col="Gray", lwd=2)
legend("bottomleft", names(sim), col=colors, lwd=2, bty="n", cex=0.8)
for(i in 1:length(sim)) {
  coverage <- sim[[i]]
  lines(alpha.logit, logit(coverage) - alpha.logit, col=colors[i], lwd=2)
}

plot(range(alpha), c(-0.2, 0.05), type="n", 
     main="Raw Confidence Interval Accuracies", cex.main=0.8,
     xlab="alpha", 
     ylab="coverage-alpha")
abline(h=0, col="Gray", lwd=2)
legend("bottomleft", names(sim), col=colors, lwd=2, bty="n", cex=0.8)
for(i in 1:length(sim)) {
  coverage <- sim[[i]]
  lines(alpha, coverage - alpha, col=colors[i], lwd=2)
}

— whuber
fonte

14

Questa è un'idea interessante e posso vedere come sia intuitivamente avvincente, ma penso che sia troppo vago per essere vero o falso. Ecco un paio di domande che vorrei che il commentatore chiarisse:

Un intervallo di confidenza per cosa (una media, una varianza, qualcos'altro)?
Come è stato calcolato l'intervallo (usando la teoria dei grandi campioni, il bootstrap, ecc.)?
In che senso l'IC al 50% sarebbe esattamente "più robusto" o "meno sensibile" e a quali ipotesi?

Con risposte diverse a queste domande, penso che potremmo rendere la dichiarazione chiaramente vera o falsa.

La mia ipotesi è che il commentatore si riferisca a:

un intervallo di confidenza per la media calcolata usando una grande teoria dei campioni,
dove la distribuzione dei dati non è contaminata da valori anomali ma proviene da una distribuzione diversa dalla normale che è simile alla normale nel mezzo, ma non dalle code,
e l'idea è che la vera copertura asintotica si avvicini maggiormente alla copertura nominale.

Se questi sono ciò che il commentatore ha in mente, a seconda di come le code della distribuzione si scambiano con le sue spalle, l'affermazione potrebbe essere vera.

Ad esempio, si consideri un terreno di normali di distribuzione e diversi low-df -distributions' CDF (copiati da Wikipedia ). Un intervallo di confidenza basato sul normale da a avrebbe quasi la copertura adeguata per i low-df s, se quelli rappresentavano il vero distribuzioni campionarie della statistica controversa. In effetti, sembra che un intervallo di confidenza del 20% avrebbe una copertura quasi perfetta, anche nel caso di una distribuzione di Cauchy ( ): $t$ $\Phi^{-1}(.25)$ $\Phi^{-1}(.75)$ $t$ $t_{df = 1}$

— gung - Ripristina Monica
fonte