Proprietà delle regressioni logistiche


17

Stiamo lavorando con alcune regressioni logistiche e ci siamo resi conto che la probabilità media stimata è sempre uguale alla proporzione di quelle nel campione; cioè, la media dei valori adattati è uguale alla media del campione.

Qualcuno può spiegarmi il motivo o darmi un riferimento dove posso trovare questa dimostrazione?


2
La ragione di ciò è che la regressione logistica sta cercando di ottenere esattamente questo: modellare la distribuzione dei dati, comprese le probabilità precedenti ("medie"). Questo comportamento è indesiderato?
Bayerj,

1
@bayer La non linearità della funzione di collegamento indica che questo fenomeno è più profondo della tua caratterizzazione. C'è davvero qualcosa da dimostrare qui.
whuber

Questa proprietà viene talvolta definita calibrazione in grande quando viene utilizzata la regressione logistica per stimare il rischio.
luglio

Risposte:


26

Il comportamento che stai osservando è il caso "tipico" della regressione logistica, ma non è sempre vero. Contiene anche molto più generalità (vedi sotto). È la conseguenza della confluenza di tre fatti separati.

  1. La scelta di modellare le probabilità del log come funzione lineare dei predittori,
  2. L'uso della massima verosimiglianza per ottenere stime dei coefficienti nel modello di regressione logistica, e
  3. L'inclusione di un termine di intercettazione nel modello.

Se una delle precedenti non è presente, le probabilità medie stimate non corrisponderanno, in generale, alla proporzione di quelle nel campione.

Tuttavia, (quasi) tutto il software statistico utilizza la stima della massima verosimiglianza per tali modelli, quindi, in pratica, gli elementi 1 e 2 sono essenzialmente sempre presenti e l'elemento 3 è solitamente presente, tranne in casi speciali.

Alcuni dettagli

Nel tipico quadro di regressione logistica, osserviamo il risultato di prove binomiali indipendenti con probabilità . Permettetemi y i be le risposte osservate. Quindi la probabilità totale è L = n i = 1 p y i i ( 1 - p i ) 1 - y i = n i = 1 exp ( y i log ( p i / ( 1 - p ipioyio quindi la probabilità logaritmica è = n i = 1 y i log ( p i / ( 1 - p i ) ) + n i = 1 log ( 1 - p i )

L=Πio=1npioyio(1-pio)1-yio=Πio=1nexp(yiolog(pio/(1-pio))+log(1-pio)),
=Σio=1nyiolog(pio/(1-pio))+Σio=1nlog(1-pio).

Ora, abbiamo un vettore di predittori per ogni osservazione e dal Fatto 1 sopra, il modello di regressione logistica pone quel log p iXio

logpio1-pio=βTXio,
βpio=1/(1+e-βTXio)

/β=0

β=ΣioyioXio-ΣioXio1+exp(-βTXio)=ΣioyioXio-ΣiopioXio,
ΣioyioXio=Σiop^ioXio,
poiché gli MLE sono invarianti sotto le trasformazioni, quindi p^io=(1+exp(-β^TXio))-1 in questo caso.

Usando Fatto 3, se Xio ha un componente j che è sempre 1 per ogni io, poi ΣioyioXioj=Σioyio=Σiop^io e quindi la proporzione empirica di risposte positive corrisponde alla media delle probabilità adattate.

Una simulazione

L'inclusione di un'intercettazione è importante. Ecco un esempio inR per dimostrare che il comportamento osservato potrebbe non verificarsi quando non è presente alcuna intercetta nel modello.

x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )

Caso generale : come accennato in precedenza, la proprietà che la risposta media è uguale alla media media prevista è molto più generica per la classe di modelli lineari generalizzati adattati dalla massima probabilità, utilizzando la funzione di collegamento canonico e includendo un'intercettazione nella modello.

Riferimenti

Alcuni buoni riferimenti per la teoria associata sono i seguenti.

  1. A. Agresti (2002), Analisi dei dati categorici , 2a edizione, Wiley.
  2. P. McCullagh e JA Nelder (1989), Generalized Linear Models , 2nd ed., Chapman & Hall. (Testo di autori originali dei metodi generali.)

4
+1 Questa dimostrazione (specifica del modello di regressione logistica, senza cercare di generalizzare a tutti i GLM) è anche fornita in Maddala (1983) Variabili dipendenti e qualitative limitate in Econometria , pagg. 25-26.
StasK

@StasK: Grazie per il riferimento aggiuntivo, che non ho familiarità. Saluti.
cardinale

@cardinal: non ricordo che Agresti ne abbia discusso. È discusso in McCullagh e Nelder?
luglio
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.