Modello logit bayesiano - spiegazione intuitiva?


11

Devo confessare che in precedenza non avevo sentito parlare di quel termine in nessuna delle mie lezioni, laureandi o laurea.

Cosa significa che una regressione logistica è bayesiana? Sto cercando una spiegazione con una transizione dalla logistica normale alla logistica bayesiana simile alla seguente:

Questa è l'equazione nel modello di regressione lineare: .E(y)=β0+β1x1+...+βnxn

Questa è l'equazione nel modello di regressione logistica: . Questo viene fatto quando y è categorico.ln(E(y)1E(y))=β0+β1x1+...+βnxn

Quello che abbiamo fatto è cambiare in .ln ( E ( y )E(y)ln(E(y)1E(y))

Quindi cosa viene fatto al modello di regressione logistica nella regressione logistica bayesiana? Immagino che non abbia a che fare con l'equazione.

L' anteprima di questo libro sembra definire, ma non capisco davvero. Cos'è tutta questa roba di probabilità precedente? Che cos'è ? Qualcuno può spiegare quella parte del libro o del modello logistico bayesiano in un altro modo?α

Nota: questo è stato chiesto prima, ma non ho risposto molto bene, credo.


1
Non voglio inserire questo in una risposta perché penso che @Tim abbia quasi tutto coperto. L'unica cosa che manca da quella risposta altrimenti grande è che, nella regressione logistica bayesiana e nei modelli lineari generalizzati bayesiani (GLM) più in generale, le distribuzioni precedenti non sono solo posizionate sui coefficienti, ma sulle varianze e sulla covarianza di tali coefficienti. Questo è incredibilmente importante da menzionare perché uno dei principali vantaggi di un approccio bayesiano ai GLM è la maggiore tracciabilità della specificazione e in molti casi anche del montaggio di modelli complessi per la covarianza dei coefficienti.
Brash Equilibrium,

2
@BrashEquilibrium: stai citando una possibile estensione gerarchica della modellazione bayesiana standard per un modello logit. Nel nostro libro , che usiamo per esempio un g-prima sul 's, prima che ha fissato la matrice di covarianza è derivato dal covariate . XβX
Xi'an,

1
Abbastanza giusto sul g precedente.
Brash Equilibrium,

1
Detto questo, c'è ancora un precedente sulle covarianze !!!!!! Se non ne discuti, non stai descrivendo come la regressione logistica funzioni completamente.
Brash Equilibrium,

Risposte:


19

La regressione logistica può essere descritta come una combinazione lineare

η=β0+β1X1+...+βkXk

che viene passato attraverso la funzione di collegamento :g

g(E(Y))=η

dove la funzione di collegamento è una funzione di logit

E(Y|X,β)=p=logit1(η)

dove assume solo valori in e le funzioni di log inverse trasformano la combinazione lineare in questo intervallo. Qui finisce la regressione logistica classica.{ 0 , 1 } ηY{0,1}η

Tuttavia, se ricordi che per le variabili che accettano solo valori in , allora può essere considerato come . In questo caso, l'output della funzione logit potrebbe essere considerato come probabilità condizionale di "successo", ovvero . La distribuzione di Bernoulli è una distribuzione che descrive la probabilità di osservare il risultato binario, con alcuni parametri , quindi possiamo descrivere comeE(Y)=P(Y=1){0,1}E(Y|X,β)P(Y=1|X,β)P(Y=1|X,β)pY

yiBernoulli(p)

Quindi con la regressione logistica cerchiamo alcuni parametri che insieme con variabili indipendenti formano una combinazione lineare . Nella regressione classica (assumiamo che la funzione di collegamento sia funzione di identità), tuttavia per il modello che assume valori in dobbiamo trasformare modo da adattarlo nell'intervallo .X η E ( Y | X , β ) = η Y { 0 , 1 } η [ 0 , 1 ]βXηE(Y|X,β)=ηY{0,1}η[0,1]

Ora, per stimare la regressione logistica in modo bayesiano, prendi alcuni priori per i parametri come con la regressione lineare (vedi Kruschke et al, 2012 ), quindi usa la funzione logit per trasformare la combinazione lineare , in modo da usare il suo output come parametro della distribuzione di Bernoulli che descrive la tua variabileQuindi, sì, in realtà usi l'equazione e la funzione logit nello stesso modo del caso frequenzialista, e il resto funziona (ad esempio scegliendo i priori) come per stimare la regressione lineare alla via bayesiana. η p YβiηpY

L'approccio semplice per la scelta dei priori è quello di scegliere le distribuzioni normali (ma è anche possibile utilizzare altre distribuzioni, ad esempio - o distribuzione di Laplace per un modello più robusto) per con parametri e che sono preimpostati o presi da priori gerarchici . Ora, con la definizione del modello, è possibile utilizzare software come JAGS per eseguire la simulazione Markov Chain Monte Carlo per la stima del modello. Di seguito inserisco il codice JAGS per un semplice modello logistico (controlla qui per ulteriori esempi).β i μ i σ 2 itβiμiσi2

model {
   # setting up priors
   a ~ dnorm(0, .0001)
   b ~ dnorm(0, .0001)

   for (i in 1:N) {
      # passing the linear combination through logit function
      logit(p[i]) <- a + b * x[i]

      # likelihood function
      y[i] ~ dbern(p[i])
   }
}

Come puoi vedere, il codice si traduce direttamente nella definizione del modello. Quello che il software non è trae alcuni valori da priori normali per ae b, poi usa questi valori per stimare pe, infine, utilizza funzione di verosimiglianza per valutare quante probabilità i dati forniti quei parametri (questo è quando si utilizza il teorema di Bayes, vedi qui per descrizione più dettagliata).

Il modello di regressione logistica di base può essere esteso per modellare la dipendenza tra i predittori utilizzando un modello gerarchico (inclusi gli hyperpriors ). In questo caso puoi trarre dalla distribuzione normale multivariata che ci consente di includere informazioni sulla covarianza tra variabili indipendentiβiΣ

(β0β1βk)MVN([μ0μ1μk],[σ02σ0,1σ0,kσ1,0σ12σ1,kσk,0σk,1σk2])

... ma questo sta andando nei dettagli, quindi fermiamoci qui.

La parte "bayesiana" qui sta nella scelta dei priori, usando il teorema di Bayes e definendo il modello in termini probabilistici. Vedi qui per la definizione di "modello bayesiano" e qui per alcune intuizioni generali sull'approccio bayesiano . Quello che puoi anche notare è che definire i modelli è piuttosto semplice e flessibile con questo approccio.


Kruschke, JK, Aguinis, H., & Joo, H. (2012). È giunto il momento: metodi bayesiani per l'analisi dei dati nelle scienze organizzative. Metodi di ricerca organizzativa, 15 (4), 722-752.

Gelman, A., Jakulin, A., Pittau, GM e Su, Y.-S. (2008). Una distribuzione precedente di default debolmente informativa per i modelli logistici e di regressione. The Annals of Applied Statistics, 2 (4), 1360–1383.


1
Hai bisogno di prove per le variazioni, non solo per i coefficienti.
Brash Equilibrium,

3
@BCLC no, per la regressione logistica il logit viene utilizzato come funzione di collegamento , mentre è una combinazione lineare , ad esempio per la regressione lineare è la funzione di identità quindi , questo è solo una specifica standard di GLM . η η = β 0 + β 1 X 1 g E ( Y ) = ηgηη=β0+β1X1gE(Y)=η
Tim

1
@BCLC controlla i link nella mia risposta, forniscono un'introduzione alle statistiche bayesiane in generale. Questo è un argomento molto più ampio di quello menzionato nella tua domanda iniziale ma puoi trovare una buona introduzione nei riferimenti che ho fornito nella mia risposta.
Tim

1
@Tim ho fatto un refuso lì. Le prove dovrebbero leggere i priori. Fondamentalmente, i coefficienti non sono gli unici parametri sconosciuti. La distribuzione multinomiale ha anche una matrice di covarianza di varianza e in genere non assumiamo che sia nota.
Brash Equilibrium,

3
"La parte" bayesiana "qui è la scelta dei priori, usando il teorema di Bayes e definendo il modello in termini probabilistici." Un buon riferimento qui è Gelman et al. UNA DISTRIBUZIONE PRECEDENTE DEFAULT INFORMATIVA DEBOLOSA PER I MODELLI DI LOGISTICA E ALTRI MODELLI DI REGRESSIONE stat.columbia.edu/~gelman/research/published/priors11.pdf
Dalton Hance

6

Cos'è tutta questa roba di probabilità precedente?

Questo è ciò che lo rende bayesiano. Il modello generativo per i dati è lo stesso; la differenza è che un'analisi bayesiana sceglie una distribuzione precedente per i parametri di interesse e calcola o approssima una distribuzione posteriore , su cui si basa tutta l'inferenza. La regola di Bayes mette in relazione i due: il posteriore è proporzionale ai tempi di probabilità precedenti.

Intuitivamente, questo precedente consente a un analista di esprimere matematicamente la competenza in materia o i risultati preesistenti. Ad esempio, il testo a cui fai riferimento indica che il precedente per è un normale multivariato. Forse studi precedenti suggeriscono un certo intervallo di parametri che possono essere espressi con determinati parametri normali. (Con flessibilità arriva la responsabilità: si dovrebbe essere in grado di giustificare il loro precedente ad un pubblico scettico.) In modelli più elaborati, si può usare l'esperienza del dominio per mettere a punto determinati parametri latenti. Ad esempio, vedi l'esempio del fegato a cui fa riferimento questa risposta .β

Alcuni modelli di frequentista possono essere correlati a una controparte bayesiana con un precedente specifico, anche se non sono sicuro che corrisponda in questo caso.


SeanEaster, "prior" è la parola usata per la distribuzione presunta? Ad esempio, assumiamo le X o le (se intendi come in , intendi invece , , ..., ? pensi che le abbiano distribuzioni ...?) sono normali ma poi proviamo a inserirle in un'altra distribuzione? Cosa intendi esattamente con "approssimativi"? Ho la sensazione che non sia lo stesso di "fit"β β 1 , β 2 , . . . , β n X 1 X 2 X n ββββ1,β2,...,βnX1X2Xnβ
BCLC,

1
@BCLC Per rispondere a queste domande, inizierò con il semplice processo dell'inferenza bayesiana e definirò i termini mentre procedo: i bayesiani trattano tutti i parametri di interesse come variabili casuali e aggiornano le loro convinzioni su questi parametri alla luce dei dati. La distribuzione precedente esprime la propria convinzione sui parametri prima di analizzare i dati; la * distribuzione posteriore * —della regola di Bayes, il prodotto normalizzato del precedente e della probabilità — riassume la convinzione incerta sui parametri alla luce del precedente e dei dati. Il calcolo del posteriore è dove avviene il raccordo.
Sean Easter

1
@BCLC Ecco perché i parametri hanno una distribuzione. In altri modelli bayesiani, generalmente semplici, le distribuzioni posteriori possono avere un'espressione in forma chiusa. (In una variabile casuale di Bernoulli con un beta precedente a , il posteriore di è una distribuzione beta, per esempio.) Ma quando i posteriori non possono essere espressi analiticamente, li approssimiamo , generalmente usando i metodi MCMC. p pβpp
Sean Easter

Ok, penso di averti capito meglio dopo aver letto An Essay per risolvere un problema nella dottrina delle possibilità . Grazie SeanEster
BCLC,

1
Sì. In molti casi, tale sarebbe impossibile da calcolare analiticamente. P(B)
Sean Easter
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.