Regressione di Bayes: come si fa rispetto alla regressione standard?


57

Ho alcune domande sulla regressione bayesiana:

  1. Data una regressione standard come . Se voglio trasformarlo in una regressione bayesiana, ho bisogno di distribuzioni precedenti sia per che (o non funziona in questo modo)?β 0 β 1y=β0+β1x+εβ0β1

  2. Nella regressione standard si cercherebbe di minimizzare i residui per ottenere valori singoli per e . Come viene fatto nella regressione di Bayes?β 1β0β1


Faccio molta fatica qui:

posterior=prior×likelihood

La probabilità deriva dall'insieme di dati corrente (quindi è il mio parametro di regressione ma non come un singolo valore ma come distribuzione della probabilità, giusto?). La priorità proviene da una ricerca precedente (diciamo). Quindi ho ottenuto questa equazione:

y=β1x+ε

con è la mia probabilità o posteriore (o è solo totalmente sbagliato)? β1

Semplicemente non riesco a capire come la regressione standard si trasforma in una Bayes.

Risposte:


93

Modello di regressione lineare semplice

yi=α+βxi+ε

può essere scritto in termini di modello probabilistico dietro di esso

μi=α+βxiyiN(μi,σ)

cioè la variabile dipendente segue la distribuzione normale parametrizzata dalla media , che è una funzione lineare di parametrizzata da e dalla deviazione standard . Se si stima tale modello utilizzando i minimi quadrati ordinari , non è necessario preoccuparsi della formulazione probabilistica, poiché si cercano valori ottimali dei parametri minimizzando gli errori quadrati dei valori adattati ai valori previsti. D'altra parte, è possibile stimare tale modello utilizzando la stima della massima verosimiglianza , dove si cercano valori ottimali dei parametri massimizzando la funzione di verosimiglianzaμ i X α , β σ α , βYμiXα,βσα,β

argmaxα,β,σi=1nN(yi;α+βxi,σ)

dove è una funzione di densità di distribuzione normale valutata in punti , parametrizzata mediante mezzi e deviazione standard .y i α + β x i σNyiα+βxiσ

Nell'approccio bayesiano invece di massimizzare la sola funzione di verosimiglianza, assumiamo le distribuzioni precedenti per i parametri e usiamo il teorema di Bayes

posteriorlikelihood×prior

La funzione di probabilità è la stessa di sopra, ma ciò che cambia è che si assumono alcune distribuzioni precedenti per i parametri stimati e li si include nell'equazioneα,β,σ

f(α,β,σY,X)posteriori=1nN(yiα+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors

"Quali distribuzioni?" è una domanda diversa, poiché esiste un numero illimitato di scelte. Per parametri si potrebbe, ad esempio assumere distribuzioni normali parametrizzata alcuni iperparametri , o -distribuzione se si vuole assumere le code più pesanti, o distribuzione uniforme se non si vuole fare molto supposizioni, ma si vuole assumere che i parametri possono essere a priori "qualsiasi cosa nell'intervallo dato", ecc. Per è necessario assumere una distribuzione precedente che sia limitata da zero a zero, poiché la deviazione standard deve essere positiva. Ciò può portare alla formulazione del modello, come illustrato di seguito da John K. Kruschke.t σα,βtσ

Formulazione del modello di regressione lineare bayesiana

(fonte: http://www.indiana.edu/~kruschke/BMLR/ )

Mentre nella massima probabilità stavi cercando un singolo valore ottimale per ciascuno dei parametri, nell'approccio bayesiano applicando il teorema di Bayes ottieni la distribuzione posteriore dei parametri. La stima finale dipenderà dalle informazioni che provengono dai tuoi dati e dai tuoi priori , ma più informazioni sono contenute nei tuoi dati, meno influenti sono i priori .

Notare che quando si usano priori uniformi, prendono forma dopo aver lasciato cadere le costanti normalizzanti. Questo rende il teorema di Bayes proporzionale alla sola funzione di verosimiglianza, quindi la distribuzione posteriore raggiungerà il suo massimo esattamente nello stesso punto della stima della massima verosimiglianza. Ciò che segue, la stima sotto priori uniformi sarà la stessa usando i minimi quadrati ordinari poiché minimizzare gli errori al quadrato corrisponde a massimizzare la normale probabilità .f(θ)1

Per stimare un modello in approccio bayesiano in alcuni casi è possibile utilizzare priori coniugati , quindi la distribuzione posteriore è direttamente disponibile (vedi esempio qui ). Tuttavia nella stragrande maggioranza dei casi la distribuzione posteriore non sarà direttamente disponibile e dovrete usare i metodi Markov Chain Monte Carlo per stimare il modello (controllate questo esempio di utilizzo dell'algoritmo Metropolis-Hastings per stimare i parametri di regressione lineare). Infine, se sei interessato solo alle stime puntuali dei parametri, puoi utilizzare la stima massima a posteriori , ad es

argmaxα,β,σf(α,β,σY,X)

Per una descrizione più dettagliata della regressione logistica è possibile controllare il modello logit bayesiano - spiegazione intuitiva? filo.

Per saperne di più puoi consultare i seguenti libri:

Kruschke, J. (2014). Fare analisi dei dati bayesiani: un tutorial con R, JAGS e Stan. Academic Press.

Gelman, A., Carlin, JB, Stern, HS e Rubin, DB (2004). Analisi dei dati bayesiani. Chapman & Hall / CRC.


2
+1 Considerato il modo in cui viene formulata la domanda, potrei forse enfatizzare un po 'di più questa differenza filosofica: nei minimi quadrati ordinari e nella stima della massima verosimiglianza, stiamo iniziando con la domanda "Quali sono i valori migliori per (forse per dopo uso)?" βi, mentre nel pieno approccio bayesiano, iniziamo con la domanda "Cosa possiamo dire dei valori sconosciuti ?" e quindi forse procedere all'utilizzo della media massima a posteriori o posteriore se è necessaria una stima puntuale. β iβi
JiK,

2
+1. Un'altra cosa che potrebbe essere utile sottolineare per chiarire la relazione tra gli approcci bayesiani e OLS è che l'OLS può essere inteso come media posteriore in un precedente piatto (almeno per quanto ho capito). Sarebbe bello se potessi approfondire un po 'questo nella tua risposta.
ameba dice di reintegrare Monica il

@amoeba è un buon punto, ci penserò. Ma d'altra parte, non voglio rendere la risposta apertamente lunga, quindi ha senso andare ai dettagli.
Tim

1
A proposito, ho aggiunto un breve commento a riguardo.
Tim

22

Dato un set di dati dove , una regressione lineare bayesiana modella il problema nel seguente modo:x R d , y RD=(x1,y1),,(xN,yN)xRd,yR

Prima:

wN(0,σw2Id)

( w 1 , , w d ) T I d d × dw è un vettore , quindi la distribuzione precedente è un gaussiano multivariato; e è la matrice di identità .(w1,,wd)TIdd×d

Probabilità:

YiN(wTxi,σ2)

Partiamo dal presupposto cheYiYj|w,ij

Per ora useremo la precisione invece della varianza, e . Supponiamo anche che siano noti.a=1/σ2b=1/σw2a,b

Il precedente può essere indicato come

p(w)αexp{-B2wtw}

E la probabilità

p(D|w)αexp{-un'2(y-UNw)T(y-UNw)}

dove e è un matrice in cui la i-esima riga è .y=(y1,...,yN)TUNn×dXioT

Quindi il posteriore è

p(w|D)αp(D|w)p(w)

Dopo molti calcoli lo scopriamo

p(w|D)~N(w|μ,Λ-1)

dove ( è la matrice di precisione)Λ

Λ=un'UNTUN+Biod
μ=un'Λ-1UNTy

Si noti che è uguale al della regressione lineare regolare, questo perché per il gaussiano la media è uguale alla modalità.μwMUNP

Inoltre, possiamo fare un po 'di algebra su e ottenere la seguente uguaglianza ( ):μΛ=un'UNTUN+Biod

μ=(UNTUN+Bun'iod)-1UNTy

e confronta con :wMLE

wMLE=(UNTUN)-1UNTy

L'espressione extra in corrisponde al precedente. Questo è simile all'espressione per la regressione di Ridge, per il caso speciale in cui . La regressione della cresta è più generale perché la tecnica può scegliere priori impropri (nella prospettiva bayesiana).μλ=Bun'

Per la distribuzione predittiva posteriore:

p(y|X,D)=p(y|X,D,w)p(w|X,D)dw=p(y|X,w)p(w|D)dw

è possibile calcolarlo

y|X,D~N(μTX,1un'+XTΛ-1X)

Riferimento: Lunn et al. Il libro BUGS

Per l'utilizzo di uno strumento MCMC come JAGS / Stan, controlla l'analisi dei dati bayesiani di Kruschke


Grazie jpneto. Sento che questa è un'ottima risposta, ma non lo capisco ancora a causa della mancanza di conoscenza della matematica. Ma sicuramente lo rileggerò dopo aver acquisito alcune abilità matematiche
TinglTanglBob,

1
Questo è molto bello, ma il presupposto che la precisione sia nota è un po 'insolito. Non è molto più comune assumere una distribuzione Gamma inversa per la varianza, cioè una distribuzione Gamma per la precisione?
DeltaIV,

+1. Puoi commentare un po 'di più su "La regressione della cresta è più generale perché la tecnica può scegliere priori impropri"? Non capisco Ho pensato RR = gaussiano (corretto) prima di . w
ameba dice Ripristina Monica il

@amoeba: il priore gaussiano è ma può essere zero, il che si traduce in un precedente improprio, vale a dire, si traduce in MLE. λw~N(0,λ-1iod)λ
jpneto,

1
@DeltaIV: certo, quando abbiamo incertezza su un parametro possiamo modellarlo con un precedente. Il presupposto della precisione nota è di facilitare la ricerca di una soluzione analitica. Di solito, queste soluzioni analitiche non sono possibili e dobbiamo usare approssimazioni, come MCMC o qualche tecnica variazionale.
jpneto,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.