La distribuzione "predefinita", la più comunemente usata e descritta, per i dati di conteggio è la distribuzione di Poisson . Molto spesso viene illustrato usando l'esempio del suo primo utilizzo pratico:
Un'applicazione pratica di questa distribuzione fu fatta da Ladislao Bortkiewicz nel 1898 quando gli fu affidato il compito di indagare sul numero di soldati nell'esercito prussiano uccisi accidentalmente da calci a cavallo; questo esperimento ha introdotto la distribuzione di Poisson nel campo dell'ingegneria dell'affidabilità.
La distribuzione di Poisson è parametrizzata per rate per intervallo di tempo fisso ( è anche media e varianza). In caso di regressione, possiamo usare la distribuzione di Poisson in un modello lineare generalizzato con funzione log-linear linkλλλ
E(Y|X,β)=λ=exp(β0+β1X1+⋯+βkXk)
si chiama regressione di Poisson , poiché possiamo supporre che sia un tasso di distribuzione di Poisson. Si noti tuttavia che per la regressione log-lineare non è necessario formulare tale ipotesi e utilizzare semplicemente GLM con collegamento log con dati non conteggiati. Quando si interpretano i parametri, è necessario ricordare che, a causa dell'utilizzo della trasformazione del log, le modifiche alla variabile indipendente comportano modifiche moltiplicative nei conteggi previsti.λ
Il problema con l'uso della distribuzione di Poisson per i dati della vita reale è che assume che la media sia uguale alla varianza. La violazione di questo presupposto si chiama sovradispersione . In questi casi puoi sempre usare il modello quasi-Poisson , il modello log-lineare non-Poisson (per grandi conteggi Poisson può essere approssimato mediante distribuzione normale), regressione binomiale negativa (strettamente correlata a Poisson; vedi Berk e MacDonald, 2008), oppure altri modelli, come descritto da Stephan Kolassa .
Per un'introduzione amichevole alla regressione di Poisson puoi anche consultare i documenti di Lavery (2010), o Coxe, West e Aiken (2009).
Lavery, R. (2010). Una guida animata: un'introduzione alla regressione di Poisson. Carta NESUG, sa04.
Coxe, S., West, SG e Aiken, LS (2009). L'analisi dei dati di conteggio: una delicata introduzione alla regressione di Poisson e alle sue alternative. Giornale di valutazione della personalità, 91 (2), 121-136.
Berk, R. e MacDonald, JM (2008). Sovradispersione e regressione di Poisson. Journal of Quantitative Criminology, 24 (3), 269-284.