Comprensione del coniugato beta precedente nell'inferenza bayesiana su una frequenza


11

Di seguito è riportato un estratto dall'Introduzione alla statistica bayesiana di Bolstad .

Sto leggendo t

Per tutti voi esperti là fuori, questo potrebbe essere banale ma non capisco come l'autore concluda che non dobbiamo fare alcuna integrazione per calcolare la probabilità posteriore per un valore di . Comprendo la seconda espressione che è la proporzionalità e la provenienza di tutti i termini ( verosimiglianza x Priore) . Inoltre, capisco, non dobbiamo preoccuparci del denominatore poiché solo il numeratore è direttamente proporzionale. Passando alla terza equazione , non stiamo dimenticando il denominatore della regola di Bayes? Dov'è andato ? E il valore calcolato dalle funzioni Gamma, non è una costante? Le costanti non si annullano nel teorema di Bayes?π


5
Esiste una sola costante possibile, ovvero quella che rende la funzione una densità di probabilità.
Xi'an,

Risposte:


10

Il punto è che sappiamo a cosa è proporzionale il posteriore e succede così che non abbiamo bisogno di fare l'integrazione per ottenere il denominatore (costante), perché riconosciamo che una distribuzione con funzione di densità di probabilità proporzionale a (come il posteriore) è una distribuzione beta. Poiché la costante normalizzante per tale beta pdf è , otteniamo il pdf posteriore senza integrazione. E sì, la costante normalizzante nel teorema di Bayes è una costante (dati dati osservati e presupposti precedenti) proprio come la costante normalizzante per la densità posteriore.Γ ( α + β )xα1×(1x)β1Γ(α+β)Γ(α)Γ(β)


8

Il set up

Hai questo modello: Le densità per le quali f(p)=1

pbeta(α,β)x|pbinomial(n,p)
e in particolare nota che
f(p)=1B(α,β)pα1(1p)β1
1
g(x|p)=(nx)px(1p)nx
1B(α,β)=Γ(α+β)Γ(α)Γ(β).

La versione implicita

Adesso. La distribuzione posteriore è proporzionale alla precedente moltiplicata per la probabilità . Possiamo ignorare le costanti (cioè cose che non sono ), producendo: g p h ( pfgp

h(p|x)f(p)g(p|x)=pα1(1p)β1pxpnx=pα+x1(1p)β+nx1.

Questo ha la "forma" di una distribuzione beta con parametri e , e sappiamo quale dovrebbe essere la costante normalizzante corrispondente per una distribuzione beta con quei parametri: . Oppure, in termini di funzioni gamma, In altre parole, possiamo fare un po 'meglio di una relazione proporzionale senza alcun lavoro extra per le gambe, e andare direttamente all'uguaglianza: α+xβ+nx1/B(α+x,β+nx)

1B(α+x,β+nx)=Γ(n+α+β)Γ(α+x)Γ(β+nx).
h(p|x)=Γ(n+α+β)Γ(α+x)Γ(β+nx)pα+x1(1p)β+nx1.

Quindi si può usare la conoscenza della struttura di una distribuzione beta per recuperare facilmente un'espressione per il posteriore, piuttosto che passare attraverso un'integrazione disordinata e simili.

In qualche modo si aggira al posteriore completo annullando implicitamente le costanti normalizzanti della distribuzione articolare, che può essere fonte di confusione.

La versione esplicita

Potresti anche macinare le cose proceduralmente, il che può essere più chiaro.

In realtà non è molto più lungo. Nota che possiamo esprimere la distribuzione congiunta come e la distribuzione marginale di as

f(p)g(x|p)=1B(α,β)(nx)pα+x1(1p)β+nx1
x
01f(p)g(x|p)dp=1B(α,β)(nx)01pα+x1(1p)β+nx1dp=1B(α,β)(nx)Γ(α+x)Γ(β+nx)Γ(α+β+nx)

Quindi possiamo esprimere il posteriore usando il teorema di Bayes di che è la stessa cosa che abbiamo ottenuto in precedenza.

h(p|x)=f(p)g(x|p)01f(p)g(x|p)dp=1B(α,β)(nx)pα+x1(1p)β+nx11B(α,β)(nx)Γ(α+x)Γ(β+nx)Γ(α+β+n)=Γ(n+α+β)Γ(α+x)Γ(β+nx)pα+x1(1p)β+nx1

7

Revisione generale

Per rendere la risposta data da @ Björn un po 'più esplicita e allo stesso tempo più generale, dovremmo ricordare che siamo arrivati ​​al teorema di Bayes da

p(θ|X)×p(X)=p(X,θ)=p(X|θ)×p(θ)

p(θ|X)=p(X|θ)×p(θ)p(X) (Bayes Thereom)

dove rappresenta i dati osservati e nostro parametro sconosciuto vorremmo fare inferenze probabilistiche su - nel caso della domanda il parametro è una frequenza sconosciuta . Non preoccupiamoci per ora se stiamo parlando di vettori o scalari per renderlo semplice.Xθπ

La marginalizzazione nel caso continuo porta a

p(X)=+p(X,θ)dθ=+p(X|θ)×p(θ)dθ

dove la distribuzione congiunta uguale alla come abbiamo visto sopra. È una costante poiché dopo aver "integrato" il parametro dipende solo da termini costanti .p(X,θ)likelihood×prior

Pertanto possiamo riformulare il teorema di Bayes come

p(θ|X)=Const.×p(X|θ)×p(θ) conConst.=1p(X)=1p(X|θ)×p(θ)dθ

e quindi giungiamo alla solita forma di proporzionalità del teorema di Bayes .

Applicazione al problema una mano

Ora siamo pronti a collegare semplicemente ciò che sappiamo poiché la nel caso della domanda è del modulolikelihood×prior

p(X,θ)=p(X|θ)×p(θ)=Aθa+y1(1θ)b+ny1=Aθa1(1θ)b1

dove , e dove raccoglie i termini costanti dalla probabilità binomiale e dalla beta precedente.a=a+yb=b+nyA=1B(a,b)(ny)

Ora possiamo usare la risposta data da @ Björn per scoprire che questo si integra con la funzione Beta la raccolta di termini costanti modo cheB(a,b)A

p(X)=A01θa1(1θ)b1dθ=AB(a,b)

p(θ|X)=Aθa1(1θ)b1AB(a,b)=θa1(1θ)b1B(a,b)

Si noti che qualsiasi termine costante nella distribuzione congiunta verrà sempre annullato, poiché apparirà contemporaneamente nel nominatore e nel denominatore (cfr. La risposta data da @jtobin), quindi non dobbiamo davvero preoccuparci.

Così riconosciamo che la nostra distribuzione a posteriori è infatti una distribuzione beta cui possiamo semplicemente aggiornare i parametri della nota e per arrivare al posteriore. Questo è il motivo per cui il precedente distribuito beta è chiamato un precedente coniugato .b = b + n - ya=a+yb=b+ny


Questo ragionamento è simile alla versione implicita di jtobin. Osserviamo solo parti dei tempi di probabilità precedenti che contengono il parametro e raccolgono tutto il resto nella costante di normalizzazione. Quindi consideriamo l'integrazione solo come un passaggio finale che è legittimo, perché le costanti si annullano come jtobin ha mostrato nella sua versione esplicita.
Scritto il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.