Se stai solo inserendo quel predittore solitario nel modello, il rapporto di probabilità tra il predittore e la risposta sarà esattamente uguale al coefficiente di regressione esponenziale . Non credo che una derivazione di questo risultato sia presente sul sito, quindi ne approfitterò per fornirlo.
Considera un risultato binario e un singolo predittore binario :YX
X=1X=0Y=1p11p01Y=0p10p00
Quindi, un modo per calcolare il rapporto di probabilità tra e èXiYi
OR=p11p00p01p10
Per definizione della probabilità condizionale, . Nel rapporto, ha le probabilità marginali che coinvolgono l' annullamento di e puoi riscrivere il rapporto di probabilità in termini di probabilità condizionate di :pij=P(Y=i|X=j)⋅P(X=j)XY|X
OR=P(Y=1|X=1)P(Y=0|X=1)⋅P(Y=0|X=0)P(Y=1|X=0)
Nella regressione logistica, si modellano direttamente queste probabilità:
log(P(Yi=1|Xi)P(Yi=0|Xi))=β0+β1Xi
Quindi possiamo calcolare queste probabilità condizionali direttamente dal modello. Il primo rapporto nell'espressione per sopra è:OR
P(Yi=1|Xi=1)P(Yi=0|Xi=1)=(11+e−(β0+β1))(e−(β0+β1)1+e−(β0+β1))=1e−(β0+β1)=e(β0+β1)
e il secondo è:
P(Yi=0|Xi=0)P(Yi=1|Xi=0)=(e−β01+e−β0)(11+e−β0)=e−β0
ricollegandolo alla formula, abbiamo , che è il risultato.OR=e(β0+β1)⋅e−β0=eβ1
Nota: quando si hanno altri predittori, chiamarli , nel modello, il coefficiente di regressione esponenziale (usando una derivazione simile) è in realtàZ1,...,Zp
P(Y=1|X=1,Z1,...,Zp)P(Y=0|X=1,Z1,...,Zp)⋅P(Y=0|X=0,Z1,...,Zp)P(Y=1|X=0,Z1,...,Zp)
quindi è il rapporto di probabilità condizionato ai valori degli altri predittori nel modello e, in generale, non è uguale a
P(Y=1|X=1)P(Y=0|X=1)⋅P(Y=0|X=0)P(Y=1|X=0)
Quindi, non sorprende che stai osservando una discrepanza tra il coefficiente esponenziale e il rapporto di probabilità osservato.
Nota 2: ho derivato una relazione tra il vero e il vero odds ratio ma nota che la stessa relazione vale per le quantità del campione poiché la regressione logistica adattata con un singolo predittore binario riprodurrà esattamente le voci di un due per due tavolo. Cioè, i mezzi montati corrispondono esattamente ai mezzi di campionamento, come con qualsiasi GLM. Quindi, tutta la logica utilizzata sopra si applica con i valori reali sostituiti da quantità di campione. β