Nel modellare i dati relativi al conteggio dei sinistri in un ambiente assicurativo, ho iniziato con Poisson ma poi ho notato una sovraispersione. Un Quasi-Poisson modellava meglio la relazione di varianza media maggiore rispetto al Poisson di base, ma ho notato che i coefficienti erano identici in entrambi i modelli Poisson e Quasi-Poisson.
Se questo non è un errore, perché sta succedendo? Quali sono i vantaggi dell'utilizzo di Quasi-Poisson su Poisson?
Cose da notare:
- Le perdite sottostanti sono in eccesso, il che (credo) ha impedito al Tweedie di funzionare, ma è stata la prima distribuzione che ho provato. Ho anche esaminato i modelli NB, ZIP, ZINB e Hurdle, ma ho comunque scoperto che il Quasi-Poisson forniva la soluzione migliore.
- Ho testato la sovraispersione tramite dispersiontest nel pacchetto AER. Il mio parametro di dispersione era di circa 8,4, con valore p alla magnitudine 10 ^ -16.
- Sto usando glm () con family = poisson o quasipoisson e un collegamento di registro per il codice.
- Quando eseguo il codice Poisson, esco con avvertimenti di "In dpois (y, mu, log = TRUE): non intero x = ...".
Discussioni SE utili secondo la guida di Ben:
counts/exposure
. Piuttosto, dovresti aggiungere un offset(log(exposure))
termine offset ( ) ai tuoi modelli.