Coefficiente di regressione logistica esponenziale diverso dal rapporto di probabilità


10

A quanto ho capito, il valore beta esponenziale da una regressione logistica è il rapporto di probabilità di quella variabile per la variabile di interesse dipendente. Tuttavia, il valore non corrisponde al rapporto di probabilità calcolato manualmente. Il mio modello prevede l'arresto della crescita (una misura della malnutrizione) utilizzando, tra gli altri indicatori, l'assicurazione.

// Odds ratio from LR, being done in stata
logit stunting insurance age ... etc. 
or_insurance = exp(beta_value_insurance)

// Odds ratio, manually calculated
odds_stunted_insured = num_stunted_ins/num_not_stunted_ins
odds_stunted_unins = num_stunted_unins/num_not_stunted_unins
odds_ratio = odds_stunted_ins/odds_stunted_unins

Qual è la ragione concettuale per cui questi valori sono diversi? Controllando altri fattori nella regressione? Voglio solo essere in grado di spiegare la discrepanza.


2
Stai inserendo ulteriori predittori nel modello di regressione logistica? Il rapporto di probabilità calcolato manualmente corrisponderà al rapporto di probabilità che si ottiene dalla regressione logistica se non si includono altri predittori.
Macro

È quello che immaginavo, ma volevo la conferma. Questo perché il risultato della regressione sta spiegando la variazione in altri predittori?
Mike

Sì, @mike. Supponendo che il modello sia specificato correttamente, è possibile interpretarlo come rapporto di probabilità quando tutti gli altri predittori sono tutti fissi.
Macro

@Macro: ti dispiacerebbe riaffermare il tuo commento come risposta?
jrennie,

Risposte:


22

Se stai solo inserendo quel predittore solitario nel modello, il rapporto di probabilità tra il predittore e la risposta sarà esattamente uguale al coefficiente di regressione esponenziale . Non credo che una derivazione di questo risultato sia presente sul sito, quindi ne approfitterò per fornirlo.


Considera un risultato binario e un singolo predittore binario :YX

Y=1Y=0X=1p11p10X=0p01p00

Quindi, un modo per calcolare il rapporto di probabilità tra e èXiYi

OR=p11p00p01p10

Per definizione della probabilità condizionale, . Nel rapporto, ha le probabilità marginali che coinvolgono l' annullamento di e puoi riscrivere il rapporto di probabilità in termini di probabilità condizionate di :pij=P(Y=i|X=j)P(X=j)XY|X

OR=P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

Nella regressione logistica, si modellano direttamente queste probabilità:

log(P(Yi=1|Xi)P(Yi=0|Xi))=β0+β1Xi

Quindi possiamo calcolare queste probabilità condizionali direttamente dal modello. Il primo rapporto nell'espressione per sopra è:OR

P(Yi=1|Xi=1)P(Yi=0|Xi=1)=(11+e(β0+β1))(e(β0+β1)1+e(β0+β1))=1e(β0+β1)=e(β0+β1)

e il secondo è:

P(Yi=0|Xi=0)P(Yi=1|Xi=0)=(eβ01+eβ0)(11+eβ0)=eβ0

ricollegandolo alla formula, abbiamo , che è il risultato.OR=e(β0+β1)eβ0=eβ1

Nota: quando si hanno altri predittori, chiamarli , nel modello, il coefficiente di regressione esponenziale (usando una derivazione simile) è in realtàZ1,...,Zp

P(Y=1|X=1,Z1,...,Zp)P(Y=0|X=1,Z1,...,Zp)P(Y=0|X=0,Z1,...,Zp)P(Y=1|X=0,Z1,...,Zp)

quindi è il rapporto di probabilità condizionato ai valori degli altri predittori nel modello e, in generale, non è uguale a

P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

Quindi, non sorprende che stai osservando una discrepanza tra il coefficiente esponenziale e il rapporto di probabilità osservato.

Nota 2: ho derivato una relazione tra il vero e il vero odds ratio ma nota che la stessa relazione vale per le quantità del campione poiché la regressione logistica adattata con un singolo predittore binario riprodurrà esattamente le voci di un due per due tavolo. Cioè, i mezzi montati corrispondono esattamente ai mezzi di campionamento, come con qualsiasi GLM. Quindi, tutta la logica utilizzata sopra si applica con i valori reali sostituiti da quantità di campione. β


2
Wow, grazie per aver dedicato del tempo a scrivere una spiegazione così completa.
mike

@Macro Ho scoperto che "valore p inferiore a 0,05" e "IC al 95% non include 1" non sono coerenti nella regressione logistica (ho usato SAS). Questo fenomeno è legato alla tua spiegazione?
user67275,

4

Hai una bella risposta da @Macro (+1), che ha sottolineato che il rapporto di probabilità semplice (marginale) calcolato senza riferimento a un modello e il rapporto di probabilità preso da un modello di regressione logistica multipla ( ) non sono generalmente uguali. Mi chiedo se posso ancora contribuire con un po 'di informazioni correlate qui, in particolare spiegando quando saranno e non saranno uguali. exp(β)

I valori beta nella regressione logistica, come nella regressione OLS, specificano la modifica del ceteris paribus nel parametro che regola la distribuzione della risposta associata a una modifica di 1 unità nella covariata. (Per la regressione logistica, questo è un cambiamento nel logit della probabilità di "successo", mentre per la regressione OLS è la media, .) Cioè, è il cambiamento a parità di tutto il resto . Allo stesso modo, i beta esponenziali sono rapporti di probabilità di ceteris paribus. Pertanto, il primo problema è quello di essere sicuri che ciò sia significativo. In particolare, la covariata in questione non dovrebbe esistere in altri termini (ad esempio, in un'interazione o in un termine polinomiale) altrove nel modello. (Nota che qui mi riferisco ai termini inclusiμnel tuo modello, ma ci sono anche problemi se la vera relazione varia tra i livelli di un'altra covariata, ma un termine di interazione non è stato incluso, per esempio.) Una volta stabilito che è significativo calcolare un rapporto di probabilità esponendo una beta da un modello di regressione logistica, possiamo porre le domande su quando differiranno i rapporti di probabilità marginale e basati sul modello, e quale dovresti preferire quando lo fanno?

Il motivo per cui questi OR differiranno è perché le altre covariate incluse nel modello non sono ortogonali a quella in questione. Ad esempio, puoi verificare eseguendo una semplice correlazione tra le tue covariate (non importa quali siano i valori p o se le tue covariate sono anziché continue, il punto è semplicemente che ). D'altra parte, quando tutte le altre covariate sono ortogonali a quella in questione, sarà uguale all'OR marginale. r 0 exp ( β )0/1r0exp(β)

Se l'OR marginale e l'OR basato sul modello differiscono, è necessario utilizzare / interpretare la versione basata sul modello. Il motivo è che l'OR marginale non tiene conto del confondimento tra le covariate, mentre il modello lo fa. Questo fenomeno è correlato al Paradox di Simpson , di cui potresti voler leggere (SEP ha anche una buona voce , c'è una discussione sul CV qui: Basic-simpson's-paradosso , ed è possibile cercare sul tag CV ). Per motivi di semplicità e praticità, potresti voler utilizzare solo il modello basato su OR, poiché sarà chiaramente preferibile o uguale.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.