Comprensione delle distribuzioni predittive bayesiane


9

Sto prendendo un corso di introduzione a Bayes e ho qualche difficoltà a capire le distribuzioni predittive. Capisco perché sono utili e ho familiarità con la definizione, ma ci sono alcune cose che non capisco bene.

1) Come ottenere la giusta distribuzione predittiva per un vettore di nuove osservazioni

Supponiamo di aver creato un modello di campionamento per i dati e un precedente . Supponiamo che le osservazioni siano condizionatamente indipendenti date .p(yi|θ)p(θ)yiθ

Abbiamo osservato alcuni dati e aggiorniamo la nostra precedente alla parte posteriore .D={y1,y2,...,yk}p(θ)p(θ|D)

Se volessimo prevedere un vettore di nuove osservazioni N={y~1,y~2,...,y~n} , I penso che dovremmo provare a ottenere il predittivo posteriore usando questa formula

p(N|D)=p(θ|D)p(N|θ)dθ=p(θ|D)i=1np(y~i|θ)dθ,
che non è uguale a
i=1np(θ|D)p(y~i|θ)dθ,
quindi le osservazioni previste non sono indipendenti, giusto?

Dì che θ|D Beta ( a,b ) e p(yi|θ) Binomial ( n,θ ) per un n fisso n. In questo caso, se volessi simulare 6 new y~ , se lo capissi correttamente, sarebbe sbagliato simulare 6 disegni indipendentemente dalla distribuzione Beta-Binomiale che corrisponde alla previsione posteriore per una singola osservazione. È corretto? Non so come interpretare che le osservazioni non sono marginalmente indipendenti e non sono sicuro di averlo capito correttamente.

Simulazione da predittivi posteriori

Molte volte quando simuliamo i dati dal predittivo posteriore seguiamo questo schema:

Per b da 1 a B :

1) Campione da . p ( θ | D )θ(b)p(θ|D)

2) Quindi simulare nuovi dati da . p( N | θ ( b ) )N(b)p(N|θ(b))

Non so proprio come provare che questo schema funzioni, anche se sembra intuitivo. Inoltre, questo ha un nome? Ho provato a cercare una giustificazione e ho provato nomi diversi, ma non ho avuto fortuna.

Grazie!


Ho fatto una domanda simile su stats.stackexchange.com/questions/72570/… ma sembra che il tuo abbia ricevuto finora più voti positivi .
Giovanni,

Risposte:


4

Supponiamo che siano condizionatamente indipendenti dato che . Quindi, in cui la prima uguaglianza segue dalla legge della probabilità totale, la seconda segue dalla regola del prodotto e la terza dalla presunta indipendenza condizionale: dato il valore di Θ = θ f X n + 1X 1 , , X n ( x n + 1x 1 , , x n ) = f X n + 1 , Θ X 1 , , X n ( xX1,,Xn,Xn+1Θ=θ= f X n + 1Θ , X 1 , , X n ( x

fXn+1X1,,Xn(xn+1x1,,xn)=fXn+1,ΘX1,,Xn(xn+1,θx1,,xn)dθ
= f X
=fXn+1Θ,X1,,Xn(xn+1θ,x1,,xn)fΘX1,,Xn(θx1,,xn)dθ
Θ X 1 , , X n X n + 1
=fXn+1Θ(xn+1θ)fΘX1,,Xn(θx1,,xn)dθ,
Θ, non abbiamo bisogno dei valori di per determinare la distribuzione di .X1,,XnXn+1

Lo schema di simulazione è corretto: per , disegna dalla distribuzione di , quindi disegna dalla distribuzione di . Questo ti dà un esempio dalla distribuzione di .θ ( i ) Θ X 1 = x 1 , , X n = x n x ( i ) n + 1 X n + 1Θ = θ ( i ) { x ( i ) n + 1 } N i = 1 X n + 1i=1,,Nθ(i)ΘX1=x1,,Xn=xnxn+1(i)Xn+1Θ=θ(i){xn+1(i)}i=1NXn+1X1=x1,,Xn=xn


Che dire se stai ottenendo la previsione posteriore per più periodi? Ho usato per ogni , ma vedo perché potrebbe avere senso ridisegnare un nuovo theta. θ(i)xn+j
John,

2

Proverò a esaminare l'intuizione dietro la generazione passo dopo passo della distribuzione predittiva posteriore.

Sia un vettore di dati osservati che provengono da una distribuzione di probabilità e che sia un vettore di valori futuri (o fuori campione) che vogliamo prevedere. Partiamo dal presupposto che provenga dalla stessa distribuzione di . Potrebbe essere allettante utilizzare la nostra migliore stima di --- come la stima MLE o MAP --- per ottenere informazioni su questa distribuzione. Tuttavia, fare ciò inevitabilmente ignorerebbe la nostra incertezza su . Pertanto, il modo appropriato di procedere è la media della distribuzione posteriore di , ovvero . Nota anche cheyp(y|θ)y~y~yθθθp(θ|y)y~è indipendente da dato , poiché si presume che sia un campione indipendente estratto dalla stessa distribuzione di . Così,yθy

p(y~|θ,y)=p(y~,y|θ)p(θ)p(θ,y)=p(y~|θ)p(y|θ)p(θ)p(y|θ)p(θ)=p(y~|θ).

La distribuzione predittiva posteriore di è quindiy~

p(y~|y)=Θp(y~|θ,y)p(θ|y)dθ=Θp(y~|θ)p(θ|y)dθ

dove è il supporto di .Θθ

Ora, come possiamo ottenere i campioni da ? Il metodo che descrivi a volte è chiamato il metodo di composizione , che funziona come segue:p(y~|y)


per s = 1,2, ..., S do

disegna daθ(s)p(θ|y)

disegna day~(s)p(y~|θ(s))


dove, nella maggior parte dei casi, abbiamo già i disegni da , quindi è richiesto solo il secondo passaggio.p(θ|y)

Il motivo per cui funziona è abbastanza semplice: prima nota che . Quindi, campionando un vettore di parametri da e, quindi, usando questo vettore per campionare da produce campioni dalla distribuzione congiunta . Ne segue che i valori campionati sono campioni della distribuzione marginale, .p(y~,θ|y)=p(y~|θ,y)p(θ|y)θ(s)p(θ|y)y~(s)p ( ~ y , θ | y ) ~ y ( s ) , s = 1 , 2 , . . . , S p ( ˜ y | y )p(y~|θ(s))=p(y~|θ(s),y)p(y~,θ|y)y~(s),s=1,2,...,Sp(y~|y)


1

Per rispondere alla tua prima domanda: sì, le osservazioni non sono indipendenti se non conosci il valore di . Supponiamo che tu abbia osservato che ha un valore piuttosto estremo. Potrebbe essere un'indicazione che il valore sconosciuto di stesso è estremo e, quindi, dovresti aspettarti che anche altre osservazioni siano estreme.˜ y 1 θθy~1θ

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.