Dato un set di dati dove , una regressione lineare bayesiana modella il problema nel seguente modo:x ∈ R d , y ∈ RD = ( x1, y1) , ... , ( xN, yN)x ∈ Rd, y∈ R
Prima:
w ∼ N( 0 , σ2wiod)
( w 1 , … , w d ) T I d d × dw è un vettore , quindi la distribuzione precedente è un gaussiano multivariato; e è la matrice di identità .( w1, ... , wd)Tiodd× d
Probabilità:
Yio∼ N( wTXio, σ2)
Partiamo dal presupposto cheYio⊥ Yj| w,io≠j
Per ora useremo la precisione invece della varianza, e . Supponiamo anche che siano noti.a = 1 / σ2b = 1 / σ2wa , b
Il precedente può essere indicato come
p ( w ) ∝ exp{ -b2wtw }
E la probabilità
p ( D | w ) ∝ exp{ -a2( y- A w )T( y- A w ) }
dove e è un matrice in cui la i-esima riga è .y= ( y1, ... , yN)TUNn × dXTio
Quindi il posteriore è
p ( w | D ) ∝ p ( D | w ) p ( w )
Dopo molti calcoli lo scopriamo
p ( w | D ) ∼ N( w | μ , Λ- 1)
dove ( è la matrice di precisione)Λ
Λ = a ATA + b Id
μ = a Λ- 1UNTy
Si noti che è uguale al della regressione lineare regolare, questo perché per il gaussiano la media è uguale alla modalità.μwMA pag
Inoltre, possiamo fare un po 'di algebra su e ottenere la seguente uguaglianza ( ):μΛ = a ATA + b Id
μ = ( ATA + bun'iod)- 1UNTy
e confronta con :wML E
wML E= ( ATA )- 1UNTy
L'espressione extra in corrisponde al precedente. Questo è simile all'espressione per la regressione di Ridge, per il caso speciale in cui . La regressione della cresta è più generale perché la tecnica può scegliere priori impropri (nella prospettiva bayesiana).μλ = bun'
Per la distribuzione predittiva posteriore:
p ( y| x,D)=∫p ( y| x,D,w)p(w | x,D)dw = ∫p ( y| x,w)p(w | D)dw
è possibile calcolarlo
y| x,D∼ N( μTx , 1un'+ xTΛ- 1x )
Riferimento: Lunn et al. Il libro BUGS
Per l'utilizzo di uno strumento MCMC come JAGS / Stan, controlla l'analisi dei dati bayesiani di Kruschke