Il calcolo della "probabilità di copertura effettiva" equivale al calcolo di un "intervallo credibile"?


10

Stavo leggendo un manuale di statistica entry level. Nel capitolo sulla stima della massima probabilità della percentuale di successo nei dati con distribuzione binomiale, ha fornito una formula per il calcolo di un intervallo di confidenza e quindi menzionato con nonchalance

Considera la sua probabilità di copertura effettiva, ovvero la probabilità che il metodo produca un intervallo che acquisisce il valore del parametro vero. Potrebbe essere un po 'meno del valore nominale.

E prosegue con un suggerimento per costruire un "intervallo di confidenza" alternativo, che presumibilmente contiene l'effettiva probabilità di copertura.

Mi sono confrontato con l'idea della probabilità di copertura nominale ed effettiva per la prima volta. Facendo strada tra le vecchie domande qui, penso di averne capito: ci sono due diversi concetti che chiamiamo probabilità, il primo è quanto sia probabile che un evento non ancora prodotto produca un determinato risultato, e il secondo è probabile che l'ipotesi di un osservatore per il risultato di un evento già accaduto sia vera. Sembrava anche che gli intervalli di confidenza misurino solo il primo tipo di probabilità e che qualcosa chiamato "intervalli credibili" misuri il secondo tipo di probabilità. Ho ipotizzato sommariamente che gli intervalli di confidenza sono quelli che calcolano la "probabilità di copertura nominale" e gli intervalli credibili sono quelli che coprono la "probabilità di copertura effettiva".

Ma forse ho frainteso il libro (non è del tutto chiaro se i diversi metodi di calcolo che offre siano per un intervallo di confidenza e un intervallo credibile, o per due diversi tipi di intervallo di confidenza), o le altre fonti a cui ero abituato la mia attuale comprensione. Soprattutto un commento che ho ricevuto su un'altra domanda,

Intervalli di confidenza per frequentista, credibile per bayesiano

mi ha fatto dubitare delle mie conclusioni, poiché il libro non descriveva un metodo bayesiano in quel capitolo.

Quindi chiarisci se la mia comprensione è corretta o se ho commesso un errore logico sulla strada.


La probabilità di copertura nominale è la probabilità di copertura "target": quella che cerchiamo di raggiungere quando ricaviamo un metodo che fornisce un intervallo di confidenza. La copertura effettiva è la copertura "vera". Alcune persone affermano che l'intervallo di confidenza è esatto quando la copertura effettiva è uguale alla copertura nominale. Scotchi e Unwisdom hanno menzionato che l'intervallo di confidenza non è mai esatto per i dati discreti. Un altro esempio è quando usiamo un intervallo di confidenza asintotico: è esatto solo quando . Capisco perfettamente la tua idea perché "attuale" è anche sinonimo di "presente". n
Stéphane Laurent,

Risposte:


5

In generale, la probabilità di copertura effettiva non sarà mai uguale alla probabilità nominale quando si lavora con una distribuzione discreta.

L'intervallo di confidenza è definito in funzione dei dati. Se stai lavorando con la distribuzione binomiale, ci sono solo finitamente molti esiti possibili ( per essere precisi), quindi ci sono solo finitamente molti possibili intervalli di confidenza. Poiché il parametro è continuo, è abbastanza facile vedere che la probabilità di copertura (che è una funzione di ) non può fare di meglio di circa il 95% (o qualsiasi altra cosa).p pn+1pp

È generalmente vero che i metodi basati sul CLT avranno probabilità di copertura inferiori al valore nominale, ma altri metodi possono effettivamente essere più conservativi.


1
Ecco un'utile dichiarazione formale della definizione: dato uno spazio campione e un parametro sconosciuto , una procedura di confidenza consiste in una coppia di funzioni tale cheIl lato sinistro di questa espressione è la (si noti che questo dipende da θ) e RHS è il livello di confidenza nominale . Se l'infimo (oltre ) dell'LHS è uguale all'RHS, la procedura è esatta . θ 1 - α L U : Ohm R P [ { w Ohm | [ L ( ω ) , U ( ω ) ] θ } ]1 - α . probabilità di copertura ΩΩ,F,Pθ1α LU:ΩR
P[{ωΩ|[L(ω),U(ω)]θ}]1α.
coverage probabilityΩ
Unwisdom

8

Non ha nulla a che fare con gli intervalli credibili bayesiani rispetto agli intervalli di confidenza frequentista. Un intervallo di confidenza del 95% (diciamo) è definito come una copertura di almeno il 95% qualunque sia il vero valore del parametro . Pertanto, quando la copertura nominale è del 95%, la copertura effettiva può essere del 97% quando , 96,5% quando , ma per nessun valore di è inferiore al 95%. Il problema (ovvero una discrepanza tra la copertura nominale e quella effettiva) sorge con distribuzioni discrete come il binomio.π = π 1 π = π 2 πππ=π1π=π2π

A titolo di esempio, si consideri l'osservazione di successi da prove binomiali con probabilità di successo sconosciuta : La prima colonna mostra i possibili valori osservati di . Il secondo mostra l'esatto superiore limite di confidenzaxnπ

xπUPr(X=x|π=0.7)I(πU0.7)00.39303780.000729010.58180340.010206020.72866160.059535130.84683890.185220140.93715010.324135150.99148760.302526161.00000000.1176491
x π U = π : [ Pr ( X > x | π ) = 0,95 ] π = 0,7 x 1 0,989065 π95%πU=π:[Pr(X>x|π)=0.95]che calcoleresti in ogni caso. Supponiamo ora : la terza colonna mostra la probabilità di ciascun valore osservato di sotto questa supposizione; il quarto mostra per quali casi l'intervallo di confidenza calcolato copre il valore del parametro vero, contrassegnandolo con un . Se si sommano le probabilità per i casi in cui l'intervallo di confidenza copre il valore reale si ottiene la copertura effettiva, . Per diversi valori reali di , la copertura effettiva sarà diversa:π=0.7x10.989065π

coperture

La copertura nominale viene raggiunta solo quando i valori dei parametri reali coincidono con i limiti superiori ottenibili.

[Ho appena riletto la tua domanda e ho notato che l'autore afferma che l'effettivo potrebbe essere inferiore alla probabilità di copertura nominale. Quindi penso che stiano parlando di un metodo approssimativo per calcolare l'intervallo di confidenza, anche se ciò che ho detto sopra va ancora bene. Il grafico potrebbe suggerire di riportare un livello di confidenza medio di circa il ma — media sui valori di un parametro sconosciuto?]98%

† Esatto nel senso che la copertura effettiva non è mai inferiore alla copertura nominale per qualsiasi valore di , e uguale ad essa per alcuni valori di - senso di @Unwisdom, non di @ Stephane.πππ

‡ Gli intervalli con i limiti superiore e inferiore sono ovviamente più comunemente utilizzati; ma un po 'più complicato da spiegare, e c'è solo un intervallo esatto da considerare con solo un limite superiore. (Vedi Blaker (2000), "Curve di confidenza e intervalli di confidenza esatti migliorati per distribuzioni discrete", Canadian Journal of Statistics , 28 , 4 e riferimenti.)


Grazie per avermi risposto. Ora che so qual è l'effettiva probabilità di copertura, hai idea del perché l'utente in questa domanda è stato inviato a domande che spiegano la differenza tra intervalli credibili e intervalli di confidenza? È qui che ho avuto l'idea che la copertura effettiva / nominale prob. la dualità è collegata. stats.stackexchange.com/questions/63922/…
rumtscho

Probabilmente perché il PO fornisce solo un link a dove ha visto i termini "nominale" e "reale" (piuttosto che riassumere o citare da esso nella domanda come hai fatto tu), e poi dedica il resto della sua domanda alla sua interpretazione errata della loro utilizzare in quel contesto.
Scortchi - Ripristina Monica

2

Penso che la differenza sia in realtà l'uso delle approssimazioni fatte nel calcolo degli intervalli di confidenza. Ad esempio se usiamo il CI abbastanza standard di

estimate±1.96×estimated standard error

Possiamo chiamarlo "intervallo di confidenza al 95%". Tuttavia, di solito, qui vengono fatte diverse approssimazioni. Se non facciamo le approssimazioni, possiamo calcolare la copertura effettiva. Una situazione tipica è sottovalutare l'errore standard. Quindi gli intervalli sono troppo stretti per acquisire il valore reale con una probabilità del 95%. Potrebbero catturare il vero valore solo con una probabilità dell'85%. La probabilità di "copertura effettiva" potrebbe essere calcolata utilizzando una simulazione monte carlo di qualche tipo (ad esempio, generare set di dati di esempio utilizzando un valore vero scelto, quindi calcolare CI del 95% per ciascuno e scoprire che conteneva effettivamente il valore reale).8501000850

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.