Il comportamento che stai osservando è il caso "tipico" della regressione logistica, ma non è sempre vero. Contiene anche molto più generalità (vedi sotto). È la conseguenza della confluenza di tre fatti separati.
- La scelta di modellare le probabilità del log come funzione lineare dei predittori,
- L'uso della massima verosimiglianza per ottenere stime dei coefficienti nel modello di regressione logistica, e
- L'inclusione di un termine di intercettazione nel modello.
Se una delle precedenti non è presente, le probabilità medie stimate non corrisponderanno, in generale, alla proporzione di quelle nel campione.
Tuttavia, (quasi) tutto il software statistico utilizza la stima della massima verosimiglianza per tali modelli, quindi, in pratica, gli elementi 1 e 2 sono essenzialmente sempre presenti e l'elemento 3 è solitamente presente, tranne in casi speciali.
Alcuni dettagli
Nel tipico quadro di regressione logistica, osserviamo il risultato di prove binomiali indipendenti con probabilità . Permettetemi y i be le risposte osservate. Quindi la probabilità totale è
L = n ∏ i = 1 p y i i ( 1 - p i ) 1 - y i = n ∏ i = 1 exp ( y i log ( p i / ( 1 - p ipioyio
quindi la probabilità logaritmica è
ℓ = n ∑ i = 1 y i log ( p i / ( 1 - p i ) ) + n ∑ i = 1 log ( 1 - p i )
L = ∏i = 1npyioio( 1 - pio)1 - yio= ∏i = 1nexp( yiolog( pio/ (1- pio) ) + log( 1 - pio) ),
ℓ = ∑i = 1nyiolog( pio/ (1- pio) ) + ∑i = 1nlog( 1 - pio).
Ora, abbiamo un vettore di predittori per ogni osservazione e dal Fatto 1 sopra, il modello di regressione logistica pone quel
log p iXio
logpio1 - pio= βTXio,
βpio= 1 / ( 1 + e- βTXio)
∂ℓ / ∂β= 0
∂ℓ∂β= ∑ioyioXio- ∑ioXio1 + exp( - βTXio)= ∑ioyioXio- ∑iopioXio,
ΣioyioXio= ∑iop^ioXio,
poiché gli MLE sono invarianti sotto le trasformazioni, quindi
p^io= ( 1 + exp( - β^TXio) )- 1 in questo caso.
Usando Fatto 3, se Xio ha un componente j che è sempre 1 per ogni io, poi ΣioyioXio j= ∑ioyio= ∑iop^io e quindi la proporzione empirica di risposte positive corrisponde alla media delle probabilità adattate.
Una simulazione
L'inclusione di un'intercettazione è importante. Ecco un esempio inR per dimostrare che il comportamento osservato potrebbe non verificarsi quando non è presente alcuna intercetta nel modello.
x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )
Caso generale : come accennato in precedenza, la proprietà che la risposta media è uguale alla media media prevista è molto più generica per la classe di modelli lineari generalizzati adattati dalla massima probabilità, utilizzando la funzione di collegamento canonico e includendo un'intercettazione nella modello.
Riferimenti
Alcuni buoni riferimenti per la teoria associata sono i seguenti.
- A. Agresti (2002), Analisi dei dati categorici , 2a edizione, Wiley.
- P. McCullagh e JA Nelder (1989), Generalized Linear Models , 2nd ed., Chapman & Hall. (Testo di autori originali dei metodi generali.)