Probabilità rispetto alla distribuzione condizionale per l'analisi bayesiana


12

Possiamo scrivere il teorema di Bayes come

p(θ|x)=f(X|θ)p(θ)θf(X|θ)p(θ)dθ

dove è il posteriore, è la distribuzione condizionale e è il precedente.f ( X | θ ) p ( θ )p(θ|x)f(X|θ)p(θ)

o

p(θ|x)=L(θ|x)p(θ)θL(θ|x)p(θ)dθ

dove è il posteriore, è la funzione di probabilità e è il precedente.p(θ|x)L(θ|x)p(θ)

La mia domanda è

  1. Perché l'analisi bayesiana viene eseguita utilizzando la funzione di probabilità e non la distribuzione condizionale?
  2. Puoi dire a parole qual è la differenza tra la probabilità e la distribuzione condizionata? So che la probabilità non è una distribuzione di probabilità e .L(θ|x)f(X|θ)

1
Non c'è differenza! La probabilità è che la distribuzione condizionale , beh, sia proporzionale a, il che è tutto ciò che conta. f(X|θ)
kjetil b halvorsen,

1
Il parametro precedente ha densità . se la realizzazione di ha valore mentre è il valore osservato di una variabile casuale , il valore della funzione di probabilità è precisamente , il valore della densità condizionata di . La differenza è che per tutte le realizzazioni di . Tuttavia, in funzione dip Θ ( θ ) Θ θ x X L ( θ x ) f ( x θ ) f X Θ ( x Θ = θ ) X - f X Θ ( x Θ = θ ) d x = 1 Θ θ x L ( θ xΘpΘ(θ)ΘθxXL(θx) f(xθ)fXΘ(xΘ=θ)X
fXΘ(xΘ=θ)dx=1
Θθ(e fisso ), non è una densità:x L ( θ x ) d θ 1L(θx)
L(θx)dθ1
Dilip Sarwate,

Risposte:


10

Supponiamo di avere variabili casuali (i cui valori saranno osservati nell'esperimento) che sono condizionatamente indipendenti, dato che , con densità condizionali , per . Questo è il tuo modello (postulato) statistico (condizionale) e le densità condizionali esprimono, per ogni possibile valore del parametro (casuale) , la tua incertezza sui valori di , prima di avere accesso a qualsiasi dati reali. Con l'aiuto delle densità condizionali è possibile, ad esempio, calcolare probabilità condizionali come Θ = θ f X iΘ (X1,,XnΘ=θfXiΘ(θ)i=1,,nθΘXi

P{X1B1,,XnBnΘ=θ}=B1××Bni=1nfXiΘ(xiθ)dx1dxn,
per ogni .θ

Dopo aver accesso a un campione effettivo di valori (realizzazioni) degli che sono stati osservati in una serie dell'esperimento, la situazione cambia: non vi è più incertezza sugli osservabili . Supponiamo che il casuale assume valori in alcuni spazi dei parametri . Ora, per quei valori noti (fissi) definiti si definisce una funzione di Si noti che , nota come "funzione di verosimiglianza" è una funzione di(x1,,xn)XiX1,,XnΘΠ(x1,,xn)

Lx1,,xn:ΠR
Lx1,,xn(θ)=i=1nfXiΘ(xiθ).
Lx1,,xnθ . In questa situazione "dopo aver dati", la probabilità contiene, per il particolare modello condizionale che stiamo prendendo in considerazione, tutte le informazioni sul parametro contenute in questo particolare esempio . In effetti, accade che sia una statistica sufficiente per .Lx1,,xnΘ(x1,,xn)Lx1,,xnΘ

Rispondendo alla tua domanda, per capire le differenze tra i concetti di densità condizionale e probabilità, tieni a mente le loro definizioni matematiche (che sono chiaramente diverse: sono diversi oggetti matematici, con proprietà diverse) e ricorda anche che la densità condizionale è un "pre -sample "oggetto / concetto, mentre la probabilità è" after-sample ". Spero che tutto ciò ti aiuti anche a rispondere al motivo per cui l'inferenza bayesiana (usando il tuo modo di dirla, che non credo sia l'ideale) viene fatta "usando la funzione di verosimiglianza e non la distribuzione condizionale": l'obiettivo dell'inferenza bayesiana è per calcolare la distribuzione posteriore e per farlo condizioniamo i dati osservati (noti).


Penso che lo Zen abbia ragione quando afferma che la probabilità e la probabilità condizionata sono diverse. Nella funzione di verosimiglianza θ non è una variabile casuale, quindi è diversa dalla probabilità condizionale.
Martine,

1

La proporzionalità viene utilizzata per semplificare l'analisi

L'analisi bayesiana viene generalmente effettuata tramite una dichiarazione ancora più semplice del teorema di Bayes, in cui lavoriamo solo in termini di proporzionalità rispetto al parametro di interesse. Per un modello IID standard con densità di campionamento possiamo esprimerlo come:f(X|θ)

p(θ|x)Lx(θ)p(θ)Lx(θ)i=1nf(xi|θ).

Questa affermazione di aggiornamento bayesiano funziona in termini di proporzionalità rispetto al parametro . Utilizza due semplificazioni della proporzionalità: una nell'uso della funzione di verosimiglianza (proporzionale alla densità di campionamento) e una nella parte posteriore (proporzionale al prodotto di verosimiglianza e precedente). Poiché il posteriore è una funzione di densità (nel caso continuo), la regola di normazione imposta quindi la costante moltiplicativa necessaria per produrre una densità valida (cioè per integrarla in una).θ

Questo metodo di utilizzo della proporzionalità ha il vantaggio di permetterci di ignorare qualsiasi elemento moltiplicativo delle funzioni che non dipende dal parametro . Questo tende a semplificare il problema permettendoci di spazzare via parti inutili della matematica e ottenere dichiarazioni più semplici del meccanismo di aggiornamento. Questo non è un requisito matematico (dal momento che la regola di Bayes funziona anche nella sua forma non proporzionale), ma semplifica le cose per i nostri cervelli di piccoli animali.θ

Un esempio applicato: considera un modello IID con i dati osservati . Per facilitare la nostra analisi definiamo le statistiche e , che sono i primi due momenti di esempio. Per questo modello abbiamo densità di campionamento:X1,...,XnIID N(θ,1)x¯=1ni=1nxix¯¯=1ni=1nxi2

f(x|θ)=i=1nf(xi|θ)=i=1nN(xi|θ,1)=i=1n12πexp(12(xiθ)2)=(2π)n/2exp(12i=1n(xiθ)2).=(2π)n/2exp(n2(θ22x¯θ+x¯¯))=(2π)n/2exp(nx¯¯2)exp(n2(θ22x¯θ))

Ora, possiamo lavorare direttamente con questa densità di campionamento, se vogliamo. Ma nota che i primi due termini in questa densità sono costanti moltiplicative che non dipendono da . È fastidioso tenere traccia di questi termini, quindi eliminiamoli, quindi abbiamo la funzione di probabilità:θ

Lx(θ)=exp(n2(θ22x¯θ)).

Questo semplifica un po 'le cose, dal momento che non dobbiamo tenere traccia di un termine aggiuntivo. Ora, potremmo applicare la regola di Bayes usando la sua versione completa dell'equazione, incluso il denominatore integrale. Ma ancora una volta, questo ci richiede di tenere traccia di un'altra fastidiosa costante moltiplicativa che non dipende da (più fastidiosa perché dobbiamo risolvere un integrale per ottenerlo). Quindi applichiamo la regola di Bayes nella sua forma proporzionale. Usando il coniugato precedente , con alcuni parametri di precisione noti , otteniamo il seguente risultato ( completando il quadrato ):θθN(0,λ0)λ0>0

p(θ|x)Lx(θ)p(θ)=exp(n2(θ22x¯θ))N(θ|0,λ0)exp(n2(θ22x¯θ))exp(λ02θ2)=exp(12(nθ22nx¯θ+λ0θ2))=exp(12((n+λ0)θ22nx¯θ))=exp(n+λ02(θ22nx¯n+λ0θ))exp(n+λ02(θnn+λ0x¯)2)N(θ|nn+λ0x¯,n+λ0).

Quindi, da questo lavoro possiamo vedere che la distribuzione posteriore è proporzionale a una densità normale. Poiché il posteriore deve essere una densità, ciò implica che il posteriore è quella densità normale:

p(θ|x)=N(θ|nn+λ0x¯,n+λ0).

Quindi, vediamo che a posteriori il parametro è normalmente distribuito con media posteriore e varianza data da:θ

E(θ|x)=nn+λ0x¯V(θ|x)=1n+λ0.

Ora, la distribuzione posteriore che abbiamo derivato ha una costante di integrazione davanti ad essa (che possiamo trovare facilmente osservando la forma della distribuzione normale ). Ma nota che non dovevamo preoccuparci di questa costante moltiplicativa - tutte le nostre attività rimuovevano (o portavano) costanti moltiplicative ogni volta che questo semplificava la matematica. Lo stesso risultato può essere derivato mentre si tiene traccia delle costanti moltiplicative, ma questo è molto più disordinato.


0

Penso che la risposta di Zen ti dica davvero quanto differiscono concettualmente la probabilità e la densità congiunta dei valori delle variabili casuali. Ancora matematicamente in funzione sia della x s e θ sono gli stessi e in questo senso la probabilità può essere visto come una densità di probabilità. La differenza che indichi nella formula per la distribuzione posteriore di Bayes è solo una differenza notazionale. Ma la sottigliezza della differenza è ben spiegata nella risposta dello Zen.i

Questo problema è emerso in altre domande discusse su questo sito per quanto riguarda la funzione di probabilità. Anche altri commenti di Kjetil e Dilip sembrano supportare ciò che sto dicendo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.