Regressione di Poisson vs. regressione dei minimi quadrati del numero di log?


21

Una regressione di Poisson è una GLM con una funzione log-link.

Un modo alternativo per modellare i dati di conteggio non distribuiti normalmente è quello di preelaborare prendendo il registro (o meglio, registro (1 + conteggio) per gestire gli 0). Se si esegue una regressione dei minimi quadrati sulle risposte del conteggio dei registri, è correlata a una regressione di Poisson? Può gestire fenomeni simili?


6
Come pensi di prendere i logaritmi di tutti i conteggi che sono zero?
whuber

3
Sicuramente non equivalente. Un modo semplice per vedere questo è guardare cosa accadrebbe se osservassi zero conteggi. (Commento creato prima di vedere il commento di @ whuber. Apparentemente questa pagina non si aggiornava correttamente sul mio browser.)
cardinale

OK, ovviamente dovrei dire, accedi (1 + conteggio). Ovviamente non equivalente, ma chiedendosi se ci fosse una relazione o se fossero in grado di gestire fenomeni simili.
Brendan OConnor,

1
C'è un'utile discussione di questo problema qui: blog.stata.com/2011/08/22/…
Michael Bishop,

Risposte:


22

Da un lato, in una regressione di Poisson, il lato sinistro dell'equazione del modello è il logaritmo del conteggio atteso: .log(E[Y|x])

D'altra parte, in un modello lineare "standard", il lato sinistro è il valore atteso della variabile di risposta normale: . In particolare, la funzione di collegamento è la funzione identità.E[Y|x]

Ora, supponiamo che sia una variabile di Poisson e che intendi normalizzarla prendendo il registro: Y = log ( Y ) . Poiché si suppone che Y sia normale, si prevede di adattare il modello lineare standard per il quale il lato sinistro è E [ Y | x ] = E [ log ( Y ) | x ] . Ma, in generale, E [ log ( Y ) | x ] log ( EYY=log(Y)YE[Y|x]=E[log(Y)|x] . Di conseguenza, questi due approcci alla modellazione sono diversi.E[log(Y)|x]log(E[Y|x])


6
In realtà, sempre a meno che P ( Y = f ( X ) | X ) = 1 per alcune funzioni misurabili σ ( X ) f , cioè Y è completamente determinato da X . E(log(Y)|X)log(E(Y|X)) P(Y=f(X)|X)=1σ(X)fYX
cardinale il

@cardinale. Molto ben messo.
suncoolsu,

9

Vedo due differenze importanti.

Innanzitutto, i valori previsti (sulla scala originale) si comportano diversamente; nei minimi quadrati loglineari rappresentano mezzi geometrici condizionati; nel modello log-poisson rappresentano i mezzi condizionali. Poiché i dati in questo tipo di analisi sono spesso distorti, la media geometrica condizionale sottostimerà la media condizionale.

Una seconda differenza è la distribuzione implicita: lognormale contro poisson. Ciò riguarda la struttura dell'eteroschedasticità dei residui: varianza residua proporzionale ai valori attesi al quadrato (lognormale) rispetto alla varianza residua proporzionale al valore atteso (Poisson).


-1

Una differenza evidente è che la regressione di Poisson produrrà numeri interi come previsioni puntuali mentre la regressione lineare del conteggio dei registri può produrre numeri non interi.


12
Come funziona? Il GLM non stima le aspettative , che non sono necessariamente integrali?
whuber

1
Questo non è vero. Meccanicamente, le regressioni di Poisson sono perfettamente in grado di gestire i non interi. Gli errori standard non verranno distribuiti in modo anomalo, ma puoi semplicemente utilizzare robusti errori standard.
Matteo,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.