Ha senso usare la regressione logistica con esito binario e predittore?


18

Ho una variabile di risultato binaria {0,1} e una variabile predittore {0,1}. I miei pensieri sono che non ha senso fare logistica a meno che non includa altre variabili e calcoli il rapporto di probabilità.

Con un predittore binario, il calcolo della probabilità non sarebbe sufficiente rispetto al rapporto di probabilità?

Risposte:


26

In questo caso puoi comprimere i tuoi dati in dove S i j è il numero di istanze per x = i e y = j con i , j { 0 , 1 } . Supponiamo che ci siano n osservazioni complessive.

XY010S00S011S10S11
SiojX=ioy=jio,j{0,1}n

Se siamo in forma il modello di (dove g è la nostra funzione di collegamento) troveremo che β 0 è logit della proporzione di successi quando x i = 0 e p 0 + β 1 è il logit della proporzione di successi quandopio=g-1(XioTβ)=g-1(β0+β11Xio=1)gβ^0Xio=0β^0+β^1 . In altre parole, β 0 = g ( S 01Xio=1 e β 0+ β 1=g(S11

β^0=g(S01S00+S01)
β^0+β^1=g(S11S10+S11).

Controlliamo questo è R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

Quindi i coefficienti di regressione logistica sono esattamente trasformazioni di proporzioni provenienti dalla tabella.

Il risultato è che possiamo certamente analizzare questo set di dati con una regressione logistica se abbiamo dati provenienti da una serie di variabili casuali di Bernoulli, ma risulta essere diverso dall'analizzare direttamente la tabella di contingenza risultante.


Yio|Xio~Berna(pio)Xiopio=g-1(β0+β1Xio)Xiopiop0p1

Σio:Xio=0Yio=S01~Bidone(n0,p0)
Σio:Xio=1Yio=S11~Bidone(n1,p1).
Xion0n1

S01/n0=S01S00+S01pp0 e S11/n1=S11S10+S11pp1.

Yio|Xio=j~Berna(pj)Sj1~Bidone(nj,pj)


1

Quando hai più di un predittore e tutti i predittori sono variabili binarie, puoi adattare un modello usando Logic Regression [1] (nota che è "Logica" non "Logistica"). È utile quando ritieni che gli effetti di interazione tra i tuoi predittori siano importanti. C'è un'implementazione in R ( LogicRegpacchetto).

[1] Ruczinski, I., Kooperberg, C., & LeBlanc, M. (2003). Regressione logica. Journal of Computational and Graphic Statistics, 12 (3), 475-511.


1
La domanda riguarda specificamente un regressore, quindi la tua risposta dovrebbe servire come commento.
Richard Hardy,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.