Il posteriore bayesiano deve essere una distribuzione adeguata?


21

So che i priori non hanno bisogno di essere propri e che neanche la funzione di verosimiglianza si integra con 1. Ma il posteriore deve essere una distribuzione adeguata? Quali sono le implicazioni se è / non è?

Risposte:


15

(È in qualche modo una sorpresa leggere le risposte precedenti, che si concentrano sulla potenziale improprietà del posteriore quando il priore è corretto, poiché, per quanto posso dire, la domanda è se il posteriore debba essere o meno adeguato ( cioè integrabile in uno) per essere un vero e proprio (cioè accettabile per l'inferenza bayesiana).)

Nelle statistiche bayesiane, la distribuzione posteriore deve essere una distribuzione di probabilità, da cui si possono derivare momenti come la media posteriore e dichiarazioni di probabilità come la copertura di un credibile regione, . Se il posteriore non può essere normalizzato in una densità di probabilità e l'inferenza bayesiana semplicemente non può essere condotta. Il posteriore semplicemente non esiste in questi casi.Eπ[h(θ)|X]P(π(θ|X)>κ|X)

f(X|θ)π(θ)dθ=+,(1)
π(θ|X)

In realtà, (1) deve valere per tutte le nello spazio del campione e non solo per la osservata perché, altrimenti, la selezione del precedente dipende dai dati . Ciò significa che i priori come il precedente di Haldane, , sulla probabilità di una variabile binomiale o binomiale negativa X non possono essere usati, poiché il posteriore non è definito per x = 0 .X Xπ(p)α{1/p(1-p)}pXX=0

Conosco un'eccezione quando si possono considerare "posteriori impropri": si trova in "The Art of Data Augmentation" di David van Dyk e Xiao-Li Meng. La misura impropria è su un cosiddetto parametro di lavoro tale che l'osservazione sia prodotta dal marginale di una distribuzione aumentata e van Dyk e Meng hanno inserito una errata su questo parametro funzionante per accelerare la simulazione di (che rimane ben definita come densità di probabilità) da MCMC.f ( x | θ ) = T ( x aug ) = x f ( x aug | θ , α )α p ( α ) α π ( θ | x )

f(X|θ)=T(Xagosto)=Xf(Xagosto|θ,α)dXagosto
p(α)απ(θ|X)

In un'altra prospettiva, in qualche modo correlata alla risposta di eretmochelys , ovvero una prospettiva della teoria delle decisioni bayesiane , un'impostazione in cui si verifica (1) potrebbe ancora essere accettabile se portasse a decisioni ottimali. Vale a dire, se è una funzione di perdita che valuta l'impatto dell'utilizzo della decisione , una decisione ottimale bayesiana sotto il precedente è data da e tutto ciò che conta è che questo integrale non sia ovunque (in ) infinito. Se (1) è valido o meno per la derivazione diL(δ,θ)0δπδ δ ( x )

δ(X)=argminδL(δ,θ)f(X|θ)π(θ)dθ
δδ(X), anche se proprietà come l'ammissibilità sono garantite solo quando (1) è valido.

19

La distribuzione posteriore non deve essere corretta anche se il precedente è corretto. Ad esempio, supponiamo che abbia un Gamma precedente con forma 0.25 (che è corretta) e modelliamo il nostro dato come tratto da una distribuzione gaussiana con zero medio e varianza . Supponiamo che sia osservato come zero. Quindi la probabilità è proporzionale a , il che rende impropria la distribuzione posteriore per , poiché è proporzionale a . Questo problema sorge a causa della natura stravagante delle variabili continue.x v x p ( xvXvXv - 0,5 v v - 1,25 e - vp(X|v)v-0.5vv-1.25e-v


Ottimo esempio, Tom!
Zen

+1, ma potresti espandere la risposta all'ultima frase del PO? Questo posteriore stravagante è significativo (puoi fare il genere di cose che faresti di solito con un posteriore), o è più analogo ottenere un NaN o un Inf da alcuni calcoli? È un segno che qualcosa non va nel tuo modello?
Wayne,

5
Non c'è niente di sbagliato nel modello. Questo posteriore è significativo nel senso che se ricevi un'altra osservazione, puoi moltiplicarlo e possibilmente tornare a un posteriore adeguato. Quindi non è come una NaN, su cui tutte le ulteriori operazioni sono NaN.
Tom Minka,

8
Anche se questo è probabilmente troppo tardi per essere importante, non penso che l'utilizzo di tali "contro-esempi" aiuti i principianti: il problema sorge perché si utilizza una versione specifica della densità gaussiana su , quando può essere arbitrariamente definita su questo set di misura zero. E quindi rendere il posteriore corretto o improprio a seconda della versione scelta. X=0
Xi'an,

Interessante - se prendi il generale , allora il posteriore è un gaussiano inverso generalizzato con parametri . @ Xi'an - sarebbe bello vedere il modo alternativo di ottenere un posteriore adeguato da questo. - 0,25 , 1 , x 2X-0.25,1,X2
probabilityislogic

11

Definendo il set noi have L'ultimo integrale sarà uguale a se la misura di Lebesgue di è positiva. Ma questo è impossibile, perché questo integrale ti dà una probabilità (un numero reale tra e ). Quindi, ne consegue che la misura di Lebesgue di è uguale a e, ovviamente, segue anche cheP r ( X Dati fasulli ) = Dati fasulli f ( x θ )

Bogus Data={x:f(xθ)π(θ)dθ=},
Dati fasulli 0 1 Dati fasulli 0 P r ( X Dati fasulli ) = 0
Pr(XBogus Data)=Bogus Dataf(xθ)π(θ)dθdx=Bogus Datadx.
Bogus Data01Bogus Data0Pr(XBogus Data)=0 .

In parole: la precedente probabilità predittiva di quei valori campione che rendono improprio il posteriore è uguale a zero.

Morale della storia: attenzione ai set nulli, possono mordere, per quanto improbabile possa essere.

PS Come sottolineato dal Prof. Robert nei commenti, questo ragionamento esplode se il priore è improprio.


4
Una volta hai scritto : "Se possiamo iniziare con un precedente adeguato e ottenere un posteriore improprio, allora lascerò l'inferenza".
Tom Minka,

2
Un po 'di lingua sulla guancia, c'era un implicito quantificatore: se possiamo iniziare con un precedente adeguato e ottenere un posteriore improprio, per ogni possibile valore del campione, allora lascerò l'inferenza. ;-)
Zen

A proposito, notevole memoria, Tom!
Zen

4
@Zen: Penso che ci sia un problema con il tuo ragionamento in quanto supponi che sia una probabilità, quindi che la misura congiunta su è una misura di probabilità, il che implica che il precedente deve essere una (corretta) misura di probabilità. Pr(XDati fasulli)(θ,X)
Xi'an,

1
Hai ragione. Il ragionamento nella risposta funziona solo con i priori appropriati. Buon punto. Aggiungerò una nota.
Zen,

3

Qualsiasi "distribuzione" deve essere sommata (o integrata) a 1. Posso pensare ad alcuni esempi in cui si potrebbe lavorare con distribuzioni non normalizzate, ma mi sento a disagio a chiamare qualsiasi cosa che emargina a tutt'altro che 1 una "distribuzione".

Xd

X^=argmaxXPX|D(X|d)=argmaxXPD|X(d|X)PX(X)PD(d)=argmaxXPD|X(d|X)PX(X)

PDXX^PD|X(d|X)PX(X)


@Zen ti dispiacerebbe essere più esplicito su ciò che pensi sia sbagliato (o fondamentalmente incompleto) su questa risposta?
whuber

1
Un modo di interpretare la domanda del PO "il posteriore deve essere una corretta distribuzione?" è chiedere se è matematicamente possibile iniziare con un precedente adeguato e terminare con un posteriore improprio. La risposta di Minka fornisce un esempio esplicito in cui accade. Ho cercato di completarlo con la mia risposta e sottolineare che ciò può avvenire solo all'interno di un insieme di zero probabilità predittiva precedente.
Zen

1
@Zen Mi sembra che un'interpretazione strettamente correlata sia "se il posteriore non è corretto, quali informazioni posso ricavarne?" Questa risposta accettata sembra fornire consigli utili e corretti relativi a quello in una circostanza speciale (che è chiaramente descritta). L'accettazione mi sembra un segnale che Eretmochelys ha colpito a casa con un'ipotesi accorta delle circostanze.
whuber

-2

nBetun'(0,0)


3
Questa risposta non è corretta Vedi la mia risposta
Tom Minka,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.