Posteriore molto diverso dal precedente e dalla probabilità


21

Se la priorità e la probabilità sono molto diverse tra loro, a volte si verifica una situazione in cui il posteriore è simile a nessuno dei due. Vedi ad esempio questa immagine, che utilizza distribuzioni normali.

Comportamento posteriore

Anche se questo è matematicamente corretto, non sembra concordare con la mia intuizione - se i dati non corrispondono alle mie convinzioni o dati fortemente sostenuti, non mi aspetterei che nessuno dei due range vada bene e che mi aspetterei un l'intera gamma o forse una distribuzione bimodale attorno al precedente e alla probabilità (non sono sicuro che abbia più senso logico). Certamente non mi aspetto un posteriore stretto attorno a un intervallo che non corrisponda né alle mie precedenti convinzioni né ai dati. Capisco che man mano che vengono raccolti più dati, il posteriore si sposterà verso la probabilità, ma in questa situazione sembra controintuitivo.

La mia domanda è: come è difettosa la mia comprensione di questa situazione (o è difettosa). Il posteriore è la funzione "corretta" per questa situazione. E se no, in quale altro modo potrebbe essere modellato?

Per completezza, il precedente è dato come e la probabilità come .N ( μ = 6,1 , σ = 0,4 )N(μ=1.5,σ=0.4)N(μ=6.1,σ=0.4)

EDIT: guardando alcune delle risposte fornite, mi sento come se non avessi spiegato molto bene la situazione. Il mio punto era che l'analisi bayesiana sembra produrre un risultato non intuitivo date le ipotesi nel modello. La mia speranza era che il posteriore avrebbe in qualche modo "tenuto conto" di decisioni di modellazione forse sbagliate, che se pensato a non è assolutamente il caso. Espanderò questo nella mia risposta.


2
Ciò significherebbe semplicemente che non puoi assumere la normalità del posteriore. Se supponi che il posteriore sia normale, allora questo sarebbe effettivamente corretto.
PascalVKooten,

Non ho fatto alcuna ipotesi sul posteriore, solo sul precedente e sulla probabilità. E in ogni caso, la forma della distribuzione sembra irrilevante qui - avrei potuto disegnarli manualmente e lo stesso posteriore avrebbe seguito.
Rónán Daly,

Sto solo dicendo che getteresti via la tua fiducia in questo posteriore se non pensi che il posteriore possa essere normale. Considerando un normale dato precedente e normale, un posteriore normale sarebbe davvero così. Forse immagini piccoli dati, qualcosa del genere potrebbe effettivamente accadere nella realtà.
PascalVKooten,

1
Questa cifra è corretta? Sembra che la probabilità precedente dovrebbe essere molto vicina a 0 poiché non si sovrappongono mai. Ho difficoltà a vedere come il tuo posteriore può sbirciare lì, poiché il peso del precedente è molto vicino a 0 lì. Mi sto perdendo qualcosa? ×
Luca,

1
@Luca Stai dimenticando la ri-normalizzazione. Il prodotto del precedente e della probabilità è vicino allo zero, sì - ma quando lo ri-normalizzi in modo che si integri nuovamente con 1, questo diventa irrilevante.
Pat

Risposte:


5

Sì, questa situazione può sorgere ed è una caratteristica delle ipotesi di modellizzazione, in particolare la normalità nel modello precedente e di campionamento (probabilità). Se invece avessi scelto una distribuzione di Cauchy per il tuo precedente, il posteriore avrebbe un aspetto molto diverso.

prior = function(x) dcauchy(x, 1.5, 0.4)
like = function(x) dnorm(x,6.1,.4)

# Posterior
propto = function(x) prior(x)*like(x)
d = integrate(propto, -Inf, Inf)
post = function(x) propto(x)/d$value

# Plot
par(mar=c(0,0,0,0)+.1, lwd=2)
curve(like, 0, 8, col="red", axes=F, frame=T)
curve(prior, add=TRUE, col="blue")
curve(post, add=TRUE, col="seagreen")
legend("bottomleft", c("Prior","Likelihood","Posterior"), col=c("blue","red","seagreen"), lty=1, bg="white")

Cauchy precedente, modello di campionamento normale


Grazie per la tua risposta @jaradniemi, penseresti che un precedente di Cauchy eviterebbe sempre la situazione particolare fornita nella domanda?
Rónán Daly,

1
Sì. Prior generalmente dalla coda pesante consentono ai dati di sopraffare più facilmente il precedente.
Jaradniemi,

2
jaradniemi, potrebbe essere così, ma se dici che non vuoi che il tuo precedente influenzi il posteriore, perché scegli in primo luogo un precedente informativo? Sembra che tu stia suggerendo di scegliere un cauchy perché sembra informativo, ma in realtà non lo è.
Florian Hartig,

1
Se il precedente e la probabilità concordano, si ottiene l'aumento desiderato di precisione dal precedente al posteriore e quindi il precedente è informativo. Ma la scelta di un precedente dalla coda pesante consente alla probabilità di sopraffare facilmente il precedente quando i due non sono d'accordo.
Jaradniemi,

2

In qualche modo non sono d'accordo con le risposte fornite finora - non c'è nulla di strano in questa situazione. La probabilità è comunque asintoticamente normale e un precedente normale non è affatto raro. Se mettete insieme entrambi, con il fatto che il precedente e la probabilità non danno la stessa risposta, abbiamo la situazione di cui stiamo parlando qui. L'ho illustrato di seguito con il codice di jaradniemi.

Citiamo in 1 che la normale conclusione di tale osservazione sarebbe che a) il modello è strutturalmente sbagliato b) i dati sono sbagliati c) la priorità è sbagliata. Ma qualcosa non va di sicuro, e vedresti anche questo se dovessi fare dei controlli predittivi posteriori, che dovresti comunque fare.

1 Hartig, F .; Dyke, J .; Hickler, T .; Higgins, SI; O'Hara, RB; Scheiter, S. & Huth, A. (2012) Collegare i modelli dinamici di vegetazione ai dati - una prospettiva inversa. J. Biogeogr., 39, 2240-2252. http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2699.2012.02745.x/abstract

prior = function(x) dnorm(x,1,.3)
like = function(x) dnorm(x,-1,.3)

# Posterior
propto = function(x) prior(x)*like(x)
d = integrate(propto, -Inf, Inf)
post = function(x) propto(x)/d$value

# Plot
par(mar=c(0,0,0,0)+.1, lwd=2)
curve(like, -2, 2, col="red", axes=F, frame=T, ylim = c(0,2))
curve(prior, add=TRUE, col="blue")
curve(post, add=TRUE, col="seagreen")
legend("bottomleft", c("Prior","Likelihood","Posterior"), col=c("blue","red","seagreen"), lty=1, bg="white")

inserisci qui la descrizione dell'immagine


2

Sento che la risposta che stavo cercando quando si è arrivati ​​a questa domanda è meglio sintetizzata da Lesaffre e Lawson nella biostatistica bayesiana

La precisione posteriore è la somma della precisione del precedente e del campione, ovvero:

1σ2=w0+w1
μσ

Ciò che riassume per me, ed è approssimativamente delineato nelle altre risposte, è che il caso di modellare i priori normali con una probabilità normale può portare a una situazione in cui il posteriore è più preciso di entrambi. Questo è controintuitivo, ma è una conseguenza speciale della modellazione di questi elementi in questo modo.


Questo si generalizza in una dimensione superiore con la matrice Fisher. L'Assia della probabilità logaritmica della distribuzione posteriore vicino al suo picco è la somma delle covarianze inverse precedenti e verosimili. L'inverso di questa somma è la covarianza del posteriore. Poiché vengono aggiunte due matrici positive (semi) definite (covarianze inverse), è matematicamente garantito che la precisione del posteriore supererà quella delle distribuzioni di probabilità precedenti o di probabilità. Questo è un risultato universale nel quadro bayesiano.
T3am5hark,

2

X1X0μ~N(1.6,0.42)X1~N(μ,0.42)X1X10.42+0.42=0.562φ(-(6.1-1.6)/0.56)=9.310-16μ

X0~N(μ,0.42)X0X0X1|X1-X0|>6.1-1.6

X0X1


1

Dopo aver riflettuto su questo per un po ', la mia conclusione è che con cattive assunzioni di modellistica, il posteriore può essere un risultato che non concorda né con le credenze precedenti né con la probabilità. Da ciò il risultato naturale è il posteriore non , in generale, la fine dell'analisi. Se è il caso che il posteriore dovrebbe adattarsi approssimativamente ai dati o che dovrebbe essere diffuso tra il precedente e la probabilità (in questo caso), allora questo dovrebbe essere verificato dopo il fatto, probabilmente con un controllo predittivo posteriore o qualcosa del genere simile. Incorporare questo nel modello sembrerebbe richiedere la capacità di mettere le probabilità su dichiarazioni probabilistiche, cosa che non credo sia possibile.


si, sono d'accordo, vedi la mia risposta più dettagliata
Florian Hartig,

0

Penso che questa sia in realtà una domanda davvero interessante. Avendolo dormito, penso di avere una pugnalata in risposta. Il problema chiave è il seguente:

  • Hai trattato la probabilità come un pdf gaussiano. Ma non è una distribuzione di probabilità - è una probabilità! Inoltre, non hai etichettato chiaramente l'asse. Queste cose combinate hanno confuso tutto ciò che segue.

μσP(μ|μ',σ')μ'σ'P(X|μ,σ)XP(μ|X,σ,μ',σ')μ

μP(X|μ)

P(μ|μ',σ')=eXp(-(μ-μ')22σ'2)12πσ'2

P(X|μ,σ)=Πio=1NeXp(-(Xio-μ)22σ2)12πσ2

σ'2=σ2/Nσ2NX !

Quindi, il priore e la probabilità sono ugualmente informativi. Perché il bimodale posteriore non è? Ciò è dovuto ai tuoi presupposti di modellazione. Hai implicitamente assunto una distribuzione normale nel modo in cui è impostato (normale normale, normale verosimiglianza) e che costringe il posteriore a dare una risposta unimodale. Questa è solo una proprietà delle normali distribuzioni, che hai risolto il problema usandole. Un modello diverso non avrebbe necessariamente fatto questo. Ho la sensazione (anche se in questo momento manca di una prova) che una distribuzione cauchy possa avere una probabilità multimodale, e quindi un posteriore multimodale.

Quindi, dobbiamo essere unimodali e il priore è informativo quanto la probabilità. In base a questi vincoli, la stima più sensata sta iniziando a suonare come un punto direttamente tra la probabilità e la precedente, poiché non abbiamo un modo ragionevole per dire a chi credere. Ma perché il posteriore si restringe?

σμσσσμ

(Un modo per visualizzarlo potrebbe essere quello di immaginare di stimare la media di un gaussiano, con varianza nota, usando solo due punti campione. Se i due punti campione sono separati da molto più della larghezza del gaussiano (cioè sono fuori nelle code), quindi questa è una prova evidente che la media si trova effettivamente tra di loro. Spostare leggermente la media da questa posizione provocherà un calo esponenziale nella probabilità di un campione o di un altro.)

In sintesi, la situazione che hai descritto è un po 'strana e usando il modello hai incluso alcune ipotesi (ad esempio unimodalità) nel problema che non ti rendevi conto di avere. Ma per il resto, la conclusione è corretta.


μσσμ
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.