Qualcuno può spiegare i priori coniugati in termini più semplici possibili?


23

Ho cercato di capire l'idea dei priori coniugati nelle statistiche bayesiane per un po ', ma semplicemente non capisco. Qualcuno può spiegare l'idea nei termini più semplici possibili, forse usando il "priore gaussiano" come esempio?

Risposte:


23

Un precedente per un parametro avrà quasi sempre una forma funzionale specifica (scritta in termini di densità, in generale). Diciamo che ci limitiamo a una particolare famiglia di distribuzioni, nel qual caso la scelta del nostro precedente si riduce alla scelta dei parametri di quella famiglia.

Ad esempio, considera un modello normale YiiidN(μ,σ2) . Per semplicità, prendiamo anche σ2 come noto. Questa parte del modello - il modello per i dati - determina la funzione di probabilità.

Per completare il nostro modello bayesiano, qui abbiamo bisogno di un precedente per μ .

Come accennato in precedenza, comunemente potremmo specificare una famiglia distributiva per il nostro precedente per e quindi dobbiamo solo scegliere i parametri di quella distribuzione (ad esempio, spesso le informazioni precedenti possono essere abbastanza vaghe, come approssimativamente dove vogliamo che la probabilità si concentri - piuttosto che di una forma funzionale molto specifica, e potremmo avere abbastanza libertà per modellare ciò che vogliamo scegliendo i parametri - diciamo per abbinare una media e una varianza precedenti).μ

Se si scopre che il posteriore per appartiene alla stessa famiglia del precedente, si dice che il precedente è "coniugato".μ

(Ciò che lo rende essere coniugato è il modo in cui si combina con la probabilità)

Quindi, in questo caso, prendiamo un precedente gaussiano per (diciamo μ N ( θ , τ 2 ) ). Se lo facciamo, vediamo che anche il posteriore per μ è gaussiano. Di conseguenza, il priore gaussiano era un priore coniugato per il nostro modello sopra.μμN(θ,τ2)μ

Questo è tutto ciò che c'è davvero - se il posteriore appartiene alla stessa famiglia del precedente, è un coniugato precedente.

In casi semplici è possibile identificare un coniugato prima dell'ispezione della probabilità. Ad esempio, considera una probabilità binomiale; lasciando cadere le costanti, sembra una densità beta in ; e a causa del modo in cui i poteri di p e ( 1 - p ) si combinano, si moltiplicherà per una beta prima di dare anche un prodotto di poteri di p e ( 1 - p ) ... così possiamo vedere immediatamente dalla probabilità che la beta sarà un coniugato prima di p nella probabilità binomiale.pp(1p)p(1p)p

Nel caso gaussiano è più facile vedere che ciò accadrà considerando le densità dei tronchi e la probabilità dei tronchi; la probabilità logaritmica sarà quadratica in e la somma di due quadratiche è quadratica, quindi una logaritmo quadratica precedente + logaritmica quadratica dà un quadratico posteriore (ciascuno dei coefficienti del termine di ordine più alto sarà ovviamente negativo).μ


9

Se il tuo modello appartiene a una famiglia esponenziale , ovvero se la densità della distribuzione è della forma

f(x|θ)=h(x)exp{T(θ)S(x)ψ(θ)}xXθΘ
rispetto a unadata misura dominante(Lebesgue, conteggio, ecc.), dovets indica un prodotto scalare suRd e
T:XRdS:ΘRd
sono funzioni misurabili, i priori coniugati suθ sono definiti da densità della forma
π(θ|ξ,λ)=C(ξ,λ)exp{T(θ)ξλψ(θ)}
[rispetto a unamisura dominante scelta arbitrariamente dν suΘ ] con
C(ξ,λ)1=Θexp{T(θ)ξλψ(θ)}dν<
eλΛR+ ,ξΞλT(X)

La scelta della misura dominante è determinante per la famiglia dei priori. Se ad esempio si affronta una probabilità media normale su μ come nella risposta di Glen_b , la scelta della misura di Lebesgue dμ come misura dominante porta alla coniugazione dei priori normali. Se invece si sceglie (1+μ2)2dμ come misura dominante, i priori coniugati rientrano nella famiglia di distribuzioni con densità

exp{α(μμ0)2}α>0,  μ0R
rispetto a questa misura dominante, e quindi non sono più priori normali. Questa difficoltà è essenzialmente la stessa di scegliere una particolare parametrizzazione della probabilità e optare per la misura di Lebesgue per questa parametrizzazione. Di fronte a una funzione di probabilità, non vi è alcuna misura dominante intrinseca (o intrinseca o di riferimento) nello spazio dei parametri.

Al di fuori di questa impostazione familiare esponenziale, non esiste una famiglia non banale di distribuzioni con un supporto fisso che consenta priori coniugati. Questa è una conseguenza del lemma di Darmois-Pitman-Koopman .


11
"in termini più semplici possibili?" Forse una spiegazione che non presuppone una conoscenza preliminare delle misure sarebbe più utile per il PO.

3
ahimè, temo che i priori coniugati siano privi di significato senza un background di misura (anche se questo è il segreto meglio custodito nell'Universo).
Xi'an,

6
Secondo me, "i termini più semplici possibili" sono aperti all'interpretazione e una spiegazione che si avvale della matematica avanzata come la teoria della misura potrebbe essere ancora "semplice" in un certo senso, forse anche "più semplice" di una spiegazione che evita tali meccanismi. In ogni caso, una tale spiegazione potrebbe essere molto illuminante per qualcuno che ha le basi necessarie per capirla, ed è innocuo includere una risposta come questa in un elenco di vari modi per spiegare un argomento. Scriviamo risposte non solo per OP ma per tutti i futuri lettori.
littleO

1
@LBogaardt Le tue critiche avrebbero un peso maggiore se potessi collegarti a una o più domande in cui pensi che questa risposta sia sia sull'argomento che a un livello più adatto. Tieni presente che "semplice" non è un termine ben definito e presenta interpretazioni soggettive diverse. Indipendentemente da ciò, non sarebbe valido confonderlo con "matematicamente non sofisticato", come suggerito dai tuoi commenti.
whuber

2
La risposta di Xi'an non è inutile per me. Ho imparato qualcosa
littleO

2

Mi piace usare la nozione di "kernel" di una distribuzione. Qui è dove si lascia solo nelle parti che dipendono dal parametro. Alcuni semplici esempi.

K kernel normale

p(μ|a,b)=K1×exp(aμ2+bμ)
Dove K è la "costante normalizzante" K=exp(aμ2+bμ)dμ=πaexp(b24a) La connessione con parametri standard media / varianza èE(μ|a,b)=b2a eVar(μ|a,b)=12a

Beta kernel

p(θ|a,b)=K1×θa(1θ)b
Dove K=θa(1θ)bdθ=Beta(a+1,b+1)

Quando osserviamo la funzione di verosimiglianza, possiamo fare la stessa cosa ed esprimerla in "forma del kernel". Ad esempio con i dati iid

p(D|μ)=i=1np(xi|μ)=Q×f(μ)

Qf(μ)

p(D|μ)=i=1np(xi|μ)=i=1n12πexp((xiμ)22)=[i=1n12π]×i=1nexp((xiμ)22)=(2π)n2×exp(i=1n(xiμ)22)=(2π)n2×exp(i=1nxi22xiμ+μ22)=(2π)n2×exp(i=1nxi22)×exp(μi=1nxiμ2n2)=Q×exp(aμ2+bμ)

where a=n2 and b=i=1nxi and Q=(2π)n2×exp(i=1nxi22)

This likelihood function has the same kernel as the normal distribution for μ, so a conjugate prior for this likelihood is also the normal distribution.

p(μ|a0,b0)=K01exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)K01exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K01×Q×exp([a+a0]μ2+[b+b0]μ)exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.


1
(+1) I appreciate the pseudo-data intuition!
Xi'an

1

For a given distribution family Dlik of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family Dpri as the posterior (e.g. Beta),

then Dpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: p(θ|x)posteriorp(x|θ)likelihoodp(θ)prior


How does this explain what a conjugate prior is?
LBogaardt

ok I'll edit that.
Thomas G.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.