Se un intervallo credibile ha un precedente fisso, un intervallo di confidenza al 95% equivale a un intervallo credibile al 95%?


31

Sono molto nuovo nelle statistiche bayesiane e questa potrebbe essere una domanda sciocca. Tuttavia:

Considera un intervallo credibile con un precedente che specifica una distribuzione uniforme. Ad esempio, da 0 a 1, dove 0 a 1 rappresenta l'intero intervallo di possibili valori di un effetto. In questo caso, un intervallo credibile del 95% sarebbe uguale a un intervallo di confidenza del 95%?

Risposte:


23

Molti intervalli di confidenza frequentista (EC) si basano sulla funzione di probabilità. Se la distribuzione precedente è veramente non informativa, il posteriore a bayesiano ha essenzialmente le stesse informazioni della funzione di verosimiglianza. Di conseguenza, in pratica, un intervallo di probabilità bayesiano (o intervallo credibile) può essere numericamente molto simile a un intervallo di confidenza del frequentatore. [Naturalmente, anche se numericamente simili, ci sono differenze filosofiche nell'interpretazione tra stime dell'intervallo frequentista e bayesiano.]

Ecco un semplice esempio, stimando la probabilità di successo binomiale Supponiamo di avere osservazioni (prove) con successi.θ.n=100X=73

Frequentista: l' intervallo Wald tradizionale utilizza la stima puntuale E l'IC 95% ha la forma che calcola aΘ ±1.96θ^=X/n=73/100=0.73.

θ^±1.96θ^(1θ^)n,
(0.643,0.817).
n = 100;  x = 73;  th.w = x/n;  pm = c(-1,1)
ci.w = th.w + pm*1.96*sqrt(th.w*(1-th.w)/n);  ci.w
[1] 0.6429839 0.8170161

Questa forma di CI presuppone che le distribuzioni binomiali rilevanti possano essere approssimate da quelle normali e che il margine di errore sia ben approssimato da Soprattutto per la piccola queste ipotesi non devono essere vere. [I casi in cui o sono particolarmente problematici.]θ(1θ)/nn,X=0X=nθ^(1θ^)/n.n,X=0X=n

È stato dimostrato che l' IC Agresti-Coull ha una probabilità di copertura più accurata. Questo intervallo "aggiunge due successi e due fallimenti" come un trucco per avvicinare una probabilità di copertura al 95%. Comincia con la stima puntuale dove Quindi un IC al 95% ha la forma che calcola aPer e la differenza tra questi due stili di intervalli di confidenza è quasi trascurabile. ˜ n +4. ˜ θ ±1.96θ~=(X+2)/n~,n~+4.(0.612,0.792). n>1000,3<˜θ<0,7,

θ~±1.96θ~(1θ~)n~,
(0.612,0.792).n>1000.3<θ~<0.7,
ci.a = th.a + pm*1.96*sqrt(th.a*(1-th.a)/n);  ci.a
[1] 0.6122700 0.7915761

Bayesiano: un precedente non informativo popolare in questa situazione èLa funzione di probabilità è proporzionale a Moltiplicando i kernel del precedente e della probabilità abbiamo il kernel della distribuzione posteriore θ x ( 1 - θ ) n - x . B e t a ( x + 1 ,Beta(1,1)Unif(0,1).θx(1θ)nx.Beta(x+1,nx+1).

Quindi una stima dell'intervallo bayesiano al 95% utilizza i quantili 0,025 e 0,975 della distribuzione posteriore per ottenere Quando la distribuzione precedente è "piatta" o "non informativa", la differenza numerica tra l'intervallo di probabilità bayesiano e l'intervallo di confidenza Agresti-Coull è lieve.(0.635,0.807).

qbeta(c(.025, .975), 74, 28)
[1] 0.6353758 0.8072313

Note: (a) In questa situazione, alcuni bayesiani preferiscono il precedente non(b) Per livelli di confidenza diversi dal 95%, l'IC Agresti-Coull utilizza una stima puntuale leggermente diversa. (c) Per dati diversi dal binomio, potrebbe non esserci un precedente "piatto" disponibile, ma si può scegliere un precedente con una varianza enorme (piccola precisione) che trasporta pochissime informazioni. (d) Per ulteriori discussioni sugli elementi della configurazione di Agresti-Coull, i grafici delle probabilità di copertura e alcuni riferimenti, forse si veda anche questa sezione Domande e risposte .Beta(.5,.5).


10

La risposta di BruceET è eccellente ma piuttosto lunga, quindi ecco un breve riassunto pratico:

  • se il precedente è piatto, la probabilità e la parte posteriore hanno la stessa forma
  • gli intervalli, tuttavia, non sono necessariamente gli stessi, perché sono costruiti in modi diversi. Un CI bayesiano standard al 90% copre il 90% centrale del posteriore. Un CI frequentista è di solito definito da un confronto puntuale (vedi la risposta di BruceET). Per un parametro di posizione non limitato (ad es. Stimare la media di una distribuzione normale), le differenze sono generalmente piccole, ma se si stima un parametro limitato (ad es. Media binomiale) vicino ai confini (0/1), le differenze possono essere sostanziali.
  • ovviamente, anche l'interpretazione è diversa, ma interpreto la domanda principalmente come "quando saranno i valori uguali?"

9

Mentre uno può risolvere per un precedente che produce un intervallo credibile che equivale all'intervallo di confidenza del frequentista, è importante rendersi conto di quanto sia ristretto l'ambito di applicazione. L'intera discussione presuppone che la dimensione del campione sia stata corretta e non sia una variabile casuale. Presuppone che ci sia stata una sola occhiata ai dati e che l'inferenza sequenziale non è stata fatta. Presuppone che esistesse solo una variabile dipendente e che nessun altro parametro fosse interessante. Laddove vi sono molteplicità, gli intervalli bayesiano e frequentista divergono (le probabilità posteriori bayesiane sono in modalità predittiva in avanti e non hanno bisogno di considerare "come siamo arrivati ​​qui", quindi non hanno modo o necessità di adattarsi per più sguardi). Inoltre,


Che cosa significa essere in "modalità predittiva in avanti" e perché non dobbiamo considerare gli effetti di selezione o molteplicità?
badmax,

1
Vedere questo . Pensa a prevedere il vincitore di una partita di calcio man mano che la partita avanza. La tua attuale probabilità che la squadra x vinca la partita può ignorare completamente le previsioni precedenti fatte. Ma se operi in una modalità frequentista dovresti prevedere tutte le volte che la tua squadra ha perso la partita e considerare estremi dei punteggi in tutti i punti durante il gioco che tendi a fare previsioni. Le moltiplicazioni derivano dalle possibilità che i dati vengano dati estremi e questo fattore si calcola solo nei calcoli frequentisti.
Frank Harrell,

6

Probabilità bayesiana con priore piatto

La funzione di probabilità e l'intervallo di confidenza associato non sono gli stessi (concetto) di una probabilità posteriore bayesiana costruita con un precedente che specifica una distribuzione uniforme.

Nelle parti 1 e 2 di questa risposta si discute perché la probabilità non dovrebbe essere vista come una probabilità posteriore bayesiana basata su un precedente piatto.

Nella parte 3 viene fornito un esempio in cui l'intervallo di confidenza e l'intervallo credibile sono ampiamente variabili. Inoltre viene sottolineato come sorge questa discrepanza.

1 Comportamento diverso quando la variabile viene trasformata

Le probabilità si trasformano in un modo particolare . Se conosciamo la distribuzione della distribuzione di probabilità fx(x) allora conosciamo anche la distribuzione di per la variabile definita da qualsiasi funzione , secondo la regola di trasformazione:fξ(ξ)ξx=χ(ξ)

fξ(ξ)=fx(χ(ξ))dχdξdξ

Se trasformi una variabile, la media e la modalità possono variare a causa di questa modifica della funzione di distribuzione. Ciò significa e .x¯χ(ξ¯)xmaxf(x)χ(ξmaxf(ξ))

La funzione di verosimiglianza non si trasforma in questo modo . Questo è il contrasto tra la funzione di verosimiglianza e la probabilità posteriore. La funzione di verosimiglianza (massima) rimane invariata quando si trasforma la variabile.

Lξ(ξ)=Lx(χ(ξ))

Relazionato:

  • Il priore piatto è ambiguo . Dipende dalla forma della statistica particolare.

    Ad esempio, se è distribuito uniformemente (es. , allora non è una variabile distribuita uniforme.XU(0,1))X2

    Non esiste un singolo flat prima del quale è possibile correlare la funzione Likelihood. È diverso quando si definisce il flat precedente per o una variabile trasformata come . Per la probabilità questa dipendenza non esiste.XX2

  • I limiti delle probabilità (intervalli di credibilità) saranno diversi quando si trasforma la variabile (per le funzioni di probabilità questo non è il caso) . Ad esempio, per alcuni parametri ed una monotona trasformazione (ad es logaritmo) si ottengono i corrispondenti intervalli di probabilità af(a)a min < a < a max f ( a min ) < f ( a ) < f ( a max )

    amin<a<amaxf(amin)<f(a)<f(amax)

2 Concetto diverso: gli intervalli di confidenza sono indipendenti dal precedente

Supponiamo di campionare una variabile da una popolazione con parametro (sconosciuto) che a sua volta (la popolazione con parametro ) viene campionata da una superpopolazione (con valori eventualmente variabili per ).Xθθθ

Si può fare una dichiarazione inversa cercando di dedurre ciò che l'originale potrebbe essere stato sulla base di osservare alcuni valori per la variabile .θxiX

  • I metodi bayesiani lo fanno supponendo una distribuzione precedente per la distribuzione di possibiliθ
  • Ciò contrasta con la funzione di probabilità e l'intervallo di confidenza, che sono indipendenti dalla distribuzione precedente.

L'intervallo di confidenza non utilizza le informazioni di un precedente come l'intervallo credibile (la confidenza non è una probabilità).

Indipendentemente dalla distribuzione precedente (uniforme o no), l'intervallo di confidenza x% conterrà il parametro vero in dei casix (gli intervalli di confidenza si riferiscono al tasso di successo, errore di tipo I, del metodo, non di un caso particolare) .

Nel caso dell'intervallo credibile questo concetto ( del tempo in cui l'intervallo contiene il parametro vero) non è nemmeno applicabile, ma possiamo interpretarlo in senso frequentista e quindi osserviamo che l'intervallo credibile conterrà il parametro vero solo delle volte in cui il precedente (uniforme) sta descrivendo correttamente la superpopolazione di parametri che potremmo incontrare. L'intervallo potrebbe effettivamente essere più alto o più basso di x% (non importa che l'approccio bayesiano risponda a domande diverse, ma è solo per notare la differenza).x

3 Differenza tra confidenza e intervalli credibili

Nell'esempio seguente esaminiamo la funzione di probabilità per la distribuzione esponenziale come funzione del parametro rate , la media del campione e la dimensione del campione :λx¯n

L(λ,x¯,n)=nn(n1)!xn1λneλnx¯

questa funzione esprime la probabilità di osservare (per un dato e ) una media campionaria tra e .nλx¯x¯+dx

nota: il parametro rate va da a (diversamente dalla 'richiesta' OP da a ). Il priore in questo caso sarà un priore improprio . I principi tuttavia non cambiano. Sto usando questa prospettiva per un'illustrazione più semplice. Le distribuzioni con parametri compresi tra e sono spesso distribuzioni discrete (difficile disegnare linee continue) o una distribuzione beta (difficile da calcolare)λ00101

L'immagine seguente illustra questa funzione di probabilità (la mappa colorata di blu), per la dimensione del campione , e traccia anche i limiti per gli intervalli del 95% (sia confidenziali che credibili).n=4

differenza tra intervalli credibili e intervalli di confidenza

I confini vengono creati ottenendo la funzione di distribuzione cumulativa (unidimensionale). Ma questa integrazione / cumulo può essere fatta in due direzioni .

La differenza tra gli intervalli si verifica perché le aree del 5% sono realizzate in modi diversi.

  • L'intervallo di confidenza al 95% contiene valori per i quali il valore osservato si verificherebbe almeno nel 95% dei casi. In questo modo. qualunque sia il valore , un giudizio errato solo nel 95% dei casi.λx¯λ

    Per ogni hai nord e sud dei confini (cambiando ) il 2,5% del peso della funzione di verosimiglianza.λx¯

  • L'intervallo credibile al 95% contiene valori che hanno maggiori probabilità di causare il valore osservato (dato un precedente piatto).λx¯

    Anche quando il risultato osservato una probabilità inferiore al 5% per un dato , il particolare potrebbe trovarsi all'interno dell'intervallo credibile. Nell'esempio particolare i valori più alti di sono "preferiti" per l'intervallo credibile.x¯λλλ

    Per ogni hai ovest e est dei confini (cambiando ) il 2,5% del peso della funzione di verosimiglianza.x¯λ

Un caso in cui l'intervallo di confidenza e l'intervallo credibile (basato su un precedente improprio) coincidono è per stimare la media di una variabile distribuita gaussiana (la distribuzione è illustrata qui: https://stats.stackexchange.com/a/351333/164061 ).

Un caso ovvio in cui l'intervallo di confidenza e l'intervallo credibile non coincidono è illustrato qui ( https://stats.stackexchange.com/a/369909/164061 ). L'intervallo di confidenza per questo caso può avere uno o anche entrambi i limiti (superiore / inferiore) all'infinito.


2
Non parlare se l'intervallo credibile contiene il parametro vero. L'intervallo credibile sta facendo una dichiarazione di probabilità. E l'x% per l'intervallo di confidenza deve menzionare il significato della replica, ovvero quali "casi".
Frank Harrell,

Il primo punto è il motivo per cui alcuni bayesiani preferiscono il precedente come menzionato nella Nota alla fine del mio problema. // Gli intervalli Wald non forniscono il livello di copertura pubblicizzato a causa delle approssimazioni interessate. (Non precisamente basato sulla probabilità.)Beta(.5,.5)
BruceET

Non credo di aver detto che con un piatto precedente la probabilità è quella posteriore, anche se può essere così. Coerentemente con la scrittura di una risposta a quello che avrei dovuto essere il livello di competenza di OP, ho cercato di scrivere attentamente il primo paragrafo della mia risposta. Credi che ciò che ho detto sia effettivamente sbagliato o stai dicendo che potrebbe essere male interpretato?
BruceET,

1

Questo non è generalmente vero, ma può sembrare così a causa dei casi speciali più frequentemente considerati.

ConsideraL'intervallo è un intervallo di confidenza del per sebbene non uno che chiunque abbia un buon senso userebbe. Non coincide con un intervallo credibile del dal posteriore rispetto a un piano precedente.( min { X , Y } , max { X , Y } ) 50 % θ , 50 %X,Yi.i.dUniform[θ1/2,θ+1/2].(min{X,Y},max{X,Y})50%θ,50%

La tecnica di Fisher di condizionare una statistica accessoria in questo caso produce un intervallo di confidenza che coincide con quell'intervallo credibile.


0

Dalla mia lettura, ho pensato che questa affermazione fosse vera asintoticamente, vale a dire per campioni di grandi dimensioni e se si utilizza un precedente non informativo.

Un semplice esempio numerico sembrerebbe confermarlo: gli intervalli di verosimiglianza massima del profilo del 90% e gli intervalli credibili del 90% di un GLM binomiale ML e del GLM binomiale bayesiano sono praticamente identici per n=1000, sebbene la discrepanza aumenterebbe per i piccoli n:

# simulate some data
set.seed(123)
n = 1000                     # sample size
x1 = rnorm(n)                # two continuous covariates 
x2 = rnorm(n)
z = 0.1 + 2*x1 + 3*x2        # predicted values on logit scale
y = rbinom(n,1,plogis(z))    # bernoulli response variable
d = data.frame(y=y, x1=x1, x2=x2)

# fit a regular GLM and calculate 90% confidence intervals
glmfit = glm(y ~ x1 + x2, family = "binomial", data = d)
library(MASS)
# coefficients and 90% profile confidence intervals :
round(cbind(coef(glmfit), confint(glmfit, level=0.9)), 2) 
#                      5 % 95 %
#   (Intercept) 0.00 -0.18 0.17
# x1            2.04  1.77 2.34
# x2            3.42  3.05 3.81

# fit a Bayesian GLM using rstanarm
library(rstanarm)
t_prior = student_t(df = 3, location = 0, scale = 100) # we set scale to large value to specify an uninformative prior
bfit1 = stan_glm(y ~ x1 + x2, data = d, 
                 family = binomial(link = "logit"), 
                 prior = t_prior, prior_intercept = t_prior,  
                 chains = 1, cores = 4, seed = 123, iter = 10000)
# coefficients and 90% credible intervals :
round(cbind(coef(bfit1), posterior_interval(bfit1, prob = 0.9)), 2) 
#                        5%  95%
#   (Intercept) -0.01 -0.18 0.17
# x1             2.06  1.79 2.37
# x2             3.45  3.07 3.85


# fit a Bayesian GLM using brms
library(brms)
priors = c(
  prior(student_t(3, 0, 100), class = "Intercept"),
  prior(student_t(3, 0, 100), class = "b")
)
bfit2 = brm(
  y ~ x1 + x2,
  data = d,
  prior = priors,
  family = "bernoulli",
  seed = 123 
) 
# coefficients and 90% credible intervals :
summary(bfit2, prob=0.9)
# Population-Level Effects: 
#           Estimate Est.Error l-90% CI u-90% CI Eff.Sample Rhat
# Intercept    -0.01      0.11    -0.18     0.18       2595 1.00
# x1            2.06      0.17     1.79     2.35       2492 1.00
# x2            3.45      0.23     3.07     3.83       2594 1.00


# fit a Bayesian GLM using arm
library(arm)
# we set prior.scale to Inf to specify an uninformative prior
bfit3 = bayesglm(y ~ x1 + x2, family = "binomial", data = d, prior.scale = Inf) 
sims = coef(sim(bfit3, n.sims=1000000))
# coefficients and 90% credible intervals :
round(cbind(coef(bfit3), t(apply(sims, 2, function (col) quantile(col,c(.05, .95))))),2)
#                       5%  95%
#   (Intercept) 0.00 -0.18 0.17
# x1            2.04  1.76 2.33
# x2            3.42  3.03 3.80

Come puoi vedere, nell'esempio sopra, perché n=1000, gli intervalli di confidenza del profilo del 90% di un GLM binomiale sono praticamente identici agli intervalli credibili del 90% di un GLM binomiale bayesiano (la differenza è anche nei limiti dell'uso di semi diversi e diversi nrs di iterazioni negli attacchi bayesiani e non è possibile ottenere un'esatta equivalenza poiché non è possibile specificare un precedente non informativo al 100% con rstanarmo brms).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.