La regressione logistica può essere descritta come una combinazione lineare
η=β0+β1X1+...+βkXk
che viene passato attraverso la funzione di collegamento :g
g(E(Y))=η
dove la funzione di collegamento è una funzione di logit
E(Y|X,β)=p=logit−1(η)
dove assume solo valori in e le funzioni di log inverse trasformano la combinazione lineare in questo intervallo. Qui finisce la regressione logistica classica.{ 0 , 1 } ηY{0,1}η
Tuttavia, se ricordi che per le variabili che accettano solo valori in , allora può essere considerato come . In questo caso, l'output della funzione logit potrebbe essere considerato come probabilità condizionale di "successo", ovvero . La distribuzione di Bernoulli è una distribuzione che descrive la probabilità di osservare il risultato binario, con alcuni parametri , quindi possiamo descrivere comeE(Y)=P(Y=1){0,1}E(Y|X,β)P(Y=1|X,β)P(Y=1|X,β)pY
yi∼Bernoulli(p)
Quindi con la regressione logistica cerchiamo alcuni parametri che insieme con variabili indipendenti formano una combinazione lineare . Nella regressione classica (assumiamo che la funzione di collegamento sia funzione di identità), tuttavia per il modello che assume valori in dobbiamo trasformare modo da adattarlo nell'intervallo .X η E ( Y | X , β ) = η Y { 0 , 1 } η [ 0 , 1 ]βXηE(Y|X,β)=ηY{0,1}η[0,1]
Ora, per stimare la regressione logistica in modo bayesiano, prendi alcuni priori per i parametri come con la regressione lineare (vedi Kruschke et al, 2012 ), quindi usa la funzione logit per trasformare la combinazione lineare , in modo da usare il suo output come parametro della distribuzione di Bernoulli che descrive la tua variabileQuindi, sì, in realtà usi l'equazione e la funzione logit nello stesso modo del caso frequenzialista, e il resto funziona (ad esempio scegliendo i priori) come per stimare la regressione lineare alla via bayesiana. η p YβiηpY
L'approccio semplice per la scelta dei priori è quello di scegliere le distribuzioni normali (ma è anche possibile utilizzare altre distribuzioni, ad esempio - o distribuzione di Laplace per un modello più robusto) per con parametri e che sono preimpostati o presi da priori gerarchici . Ora, con la definizione del modello, è possibile utilizzare software come JAGS per eseguire la simulazione Markov Chain Monte Carlo per la stima del modello. Di seguito inserisco il codice JAGS per un semplice modello logistico (controlla qui per ulteriori esempi).β i μ i σ 2 itβiμiσ2i
model {
# setting up priors
a ~ dnorm(0, .0001)
b ~ dnorm(0, .0001)
for (i in 1:N) {
# passing the linear combination through logit function
logit(p[i]) <- a + b * x[i]
# likelihood function
y[i] ~ dbern(p[i])
}
}
Come puoi vedere, il codice si traduce direttamente nella definizione del modello. Quello che il software non è trae alcuni valori da priori normali per a
e b
, poi usa questi valori per stimare p
e, infine, utilizza funzione di verosimiglianza per valutare quante probabilità i dati forniti quei parametri (questo è quando si utilizza il teorema di Bayes, vedi qui per descrizione più dettagliata).
Il modello di regressione logistica di base può essere esteso per modellare la dipendenza tra i predittori utilizzando un modello gerarchico (inclusi gli hyperpriors ). In questo caso puoi trarre dalla distribuzione normale multivariata che ci consente di includere informazioni sulla covarianza tra variabili indipendentiβiΣ
⎛⎝⎜⎜⎜⎜β0β1⋮βk⎞⎠⎟⎟⎟⎟∼MVN⎛⎝⎜⎜⎜⎜⎜⎡⎣⎢⎢⎢⎢μ0μ1⋮μk⎤⎦⎥⎥⎥⎥,⎡⎣⎢⎢⎢⎢⎢σ20σ1,0⋮σk,0σ0,1σ21⋮σk,1……⋱…σ0,kσ1,k⋮σ2k⎤⎦⎥⎥⎥⎥⎥⎞⎠⎟⎟⎟⎟⎟
... ma questo sta andando nei dettagli, quindi fermiamoci qui.
La parte "bayesiana" qui sta nella scelta dei priori, usando il teorema di Bayes e definendo il modello in termini probabilistici. Vedi qui per la definizione di "modello bayesiano" e qui per alcune intuizioni generali sull'approccio bayesiano . Quello che puoi anche notare è che definire i modelli è piuttosto semplice e flessibile con questo approccio.
Kruschke, JK, Aguinis, H., & Joo, H. (2012). È giunto il momento: metodi bayesiani per l'analisi dei dati nelle scienze organizzative. Metodi di ricerca organizzativa, 15 (4), 722-752.
Gelman, A., Jakulin, A., Pittau, GM e Su, Y.-S. (2008). Una distribuzione precedente di default debolmente informativa per i modelli logistici e di regressione. The Annals of Applied Statistics, 2 (4), 1360–1383.