Perché la regressione di Poisson viene utilizzata per i dati di conteggio?


Risposte:


51

I dati distribuiti di Poisson sono intrinsecamente valutati come numeri interi, il che ha senso per i dati di conteggio. I minimi quadrati ordinari (OLS, che chiamate "regressione lineare") presuppongono che i valori reali siano normalmente distribuiti attorno al valore previsto e possano assumere qualsiasi valore reale, positivo o negativo, intero o frazionario, qualunque cosa. Infine, la regressione logistica funziona solo per i dati con valore 0-1 (valore VERO-FALSO), come "ha una malattia" contro "non ha la malattia". Pertanto, la distribuzione di Poisson ha più senso per i dati di conteggio.

Detto questo, una distribuzione normale è spesso un'approssimazione piuttosto buona di una di Poisson per dati con una media superiore a 30 o giù di lì. E in un quadro di regressione, in cui si hanno predittori che influenzano il conteggio, un OLS con la sua distribuzione normale potrebbe essere più facile da adattare e in realtà sarebbe più generale, poiché la distribuzione e la regressione di Poisson presuppongono che la media e la varianza siano uguali, mentre OLS può gestire disparità di mezzi e varianze: per un modello di dati di conteggio con medie e varianze diverse, si potrebbe usare una distribuzione binomiale negativa , per esempio.


17
Si noti che il solo adattamento con OlS non richiede la normalità - è quando si fa deduzione sui parametri che è necessario il normale presupposto di distribuzione
Dason

1
@Dason: rimango corretto.
S. Kolassa - Ripristina Monica il

3
Se usi lo stimatore della varianza di Huber / White / Sandwich, puoi rilassare l'assunto di varianza media
Dimitriy V. Masterov

@Dason Anche se non è strettamente necessario, l'uso della giusta forma di modello per quello che stai adattando dà quasi sempre una stima migliore, e puoi vederlo in trame di residui.
Joe,

24

In sostanza, è perché la regressione lineare e logistica rende i tipi sbagliati di ipotesi su come appaiono i risultati del conteggio. Immagina il tuo modello come un robot molto stupido che seguirà incessantemente i tuoi ordini, non importa quanto siano insensati quegli ordini; manca completamente la capacità di valutare ciò che gli dici. Se dici al tuo robot che qualcosa come i voti è distribuito continuamente dall'infinito negativo all'infinito, è così che crede che siano i voti e potrebbe darti previsioni senza senso (Ross Perot riceverà -10.469 voti nelle prossime elezioni).

Al contrario, la distribuzione di Poisson è discreta e positiva (o zero ... zero conta come positivo, sì?). Come minimo, questo costringerà il tuo robot a darti risposte che potrebbero effettivamente accadere nella vita reale. Potrebbero essere o meno buone risposte, ma saranno almeno tratte dalla possibile serie di "numero di voti espressi".

Certo, il Poisson ha i suoi problemi: presume che anche la media della variabile del conteggio dei voti sarà la stessa della sua varianza. Non so se ho mai visto un esempio non inventato in cui ciò fosse vero. Fortunatamente, le persone brillanti hanno escogitato altre distribuzioni che sono anche positive e discrete, ma che aggiungono parametri per consentire alla varianza di variare, ad esempio la regressione binomiale negativa.


5

T=1λT=tλ.tλ.t

p(N=n)=(λ.t)ne-λ.tn!

Tramite questo e il metodo della massima verosimiglianza e modelli lineari generalizzati (o qualche altro metodo) si arriva alla regressione di Poisson .

In termini semplici, la regressione di Poisson è il modello che si adatta alle ipotesi del processo casuale sottostante generando un piccolo numero di eventi a una velocità (cioè numero per unità di tempo) determinata da altre variabili nel modello.


3

Altri hanno praticamente detto la stessa cosa che ho intenzione di fare ma ho pensato di aggiungere la mia opinione su di esso. Dipende da cosa stai facendo esattamente, ma molte volte ci piace concettualizzare il problema / i dati a portata di mano. Si tratta di un approccio leggermente diverso rispetto alla semplice costruzione di un modello che prevede abbastanza bene. Se stiamo cercando di concettualizzare quello che sta succedendo, ha senso modellare i dati di conteggio usando una distribuzione non negativa che mette la massa solo a valori interi. Abbiamo anche molti risultati che essenzialmente si riducono a dire che in certe condizioni contano i dati realmente èdistribuito come un poisson. Quindi, se il nostro obiettivo è concettualizzare il problema, ha davvero senso usare un poisson come variabile di risposta. Altri hanno sottolineato altri motivi per cui è una buona idea, ma se stai davvero cercando di concettualizzare il problema e capire davvero come potrebbero essere generati i dati che vedi, utilizzare una regressione di Poisson ha molto senso in alcune situazioni.


2

La mia comprensione è principalmente perché i conteggi sono sempre positivi e discreti, il Poisson può riassumere tali dati con un parametro. Il problema principale è che la varianza è uguale alla media.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.