In questo caso puoi comprimere i tuoi dati in
dove S i j è il numero di istanze per x = i e y = j con i , j ∈ { 0 , 1 } . Supponiamo che ci siano n osservazioni complessive.
X∖ Y010S00S101S01S11
Sio jx = iy= ji , j ∈ { 0 , 1 }n
Se siamo in forma il modello di (dove g è la nostra funzione di collegamento) troveremo che β 0 è logit della proporzione di successi quando x i = 0 e p 0 + β 1 è il logit della proporzione di successi quandopio= g- 1( xTioβ) = g- 1( β0+ β11Xio= 1)gβ^0Xio= 0β^0+ β^1 . In altre
parole, β 0 = g ( S 01Xio= 1
e
β 0+ β 1=g(S11
β^0= g( S01S00+ S01)
β^0+ β^1= g( S11S10+ S11) .
Controlliamo questo è R
.
n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)
tbl <- table(x=x,y=y)
mod <- glm(y ~ x, family=binomial())
# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])
# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])
Quindi i coefficienti di regressione logistica sono esattamente trasformazioni di proporzioni provenienti dalla tabella.
Il risultato è che possiamo certamente analizzare questo set di dati con una regressione logistica se abbiamo dati provenienti da una serie di variabili casuali di Bernoulli, ma risulta essere diverso dall'analizzare direttamente la tabella di contingenza risultante.
Yio| Xio~⊥Berna ( pio)Xiopio= g- 1( β0+ β1Xio)Xiopiop0p1
Σi : xio= 0Yio= S01∼ Bin ( n0, p0)
Σi : xio= 1Yio= S11∼ Bin ( n1, p1) .
Xion0n1
S01/ n0= S01S00+ S01→pp0 e S11/ n1= S11S10+ S11→pp1.
Yio| Xio= j ∼ Berna ( pj)Sj 1∼ Bin ( nj, pj)