Coefficienti identici stimati nel modello Poisson vs Quasi-Poisson


12

Nel modellare i dati relativi al conteggio dei sinistri in un ambiente assicurativo, ho iniziato con Poisson ma poi ho notato una sovraispersione. Un Quasi-Poisson modellava meglio la relazione di varianza media maggiore rispetto al Poisson di base, ma ho notato che i coefficienti erano identici in entrambi i modelli Poisson e Quasi-Poisson.

Se questo non è un errore, perché sta succedendo? Quali sono i vantaggi dell'utilizzo di Quasi-Poisson su Poisson?

Cose da notare:

  • Le perdite sottostanti sono in eccesso, il che (credo) ha impedito al Tweedie di funzionare, ma è stata la prima distribuzione che ho provato. Ho anche esaminato i modelli NB, ZIP, ZINB e Hurdle, ma ho comunque scoperto che il Quasi-Poisson forniva la soluzione migliore.
  • Ho testato la sovraispersione tramite dispersiontest nel pacchetto AER. Il mio parametro di dispersione era di circa 8,4, con valore p alla magnitudine 10 ^ -16.
  • Sto usando glm () con family = poisson o quasipoisson e un collegamento di registro per il codice.
  • Quando eseguo il codice Poisson, esco con avvertimenti di "In dpois (y, mu, log = TRUE): non intero x = ...".

Discussioni SE utili secondo la guida di Ben:

  1. Matematica di base degli offset nella regressione di Poisson
  2. Impatto degli offset sui coefficienti
  3. Differenza tra l'utilizzo dell'esposizione come covariata e offset

Una distribuzione Tweedie non sarebbe un'idea migliore?
Duffymo,

Ho provato Tweedie dall'inizio, ma i nostri dati sulle perdite non sono approfonditi, ma piuttosto su base eccessiva. Ho anche provato i modelli binomiali negativi, ZIP e ostacolo per affrontare la dispersione del conteggio.
Frank H.

1
puoi spiegare un po 'di più su da dove provengono i valori non interi nei tuoi dati ??
Ben Bolker,

6
non si devono modellare frequenze / frequenze calcolando i rapporti di counts/exposure. Piuttosto, dovresti aggiungere un offset(log(exposure))termine offset ( ) ai tuoi modelli.
Ben Bolker,

1
È pratico, sebbene molto importante quando si fa la modellazione di Poisson (non quasi-Poisson). Non conosco un buon riferimento in prima persona; se non riesci a trovare una risposta pertinente qui su CrossValidated, farebbe una bella domanda di follow-up.
Ben Bolker,

Risposte:


25

Questo è quasi un duplicato ; la domanda collegata spiega che non dovresti aspettarti che le stime dei coefficienti, la devianza residua o i gradi di libertà cambino. L'unica cosa che cambia quando ci si sposta da Poisson a quasi-Poisson è che un parametro di scala precedentemente fissato a 1 viene calcolato da una stima della variabilità residua / cattività dell'adattamento (solitamente stimata attraverso la somma dei quadrati dei residui di Pearson ( ) diviso per il residuo df, sebbene l'uso asintotico della devianza residua dia lo stesso risultato). Il risultato è che gli errori standard vengono ridimensionati dalla radice quadrata di questo parametro di scala, con modifiche concomitanti negli intervalli di confidenza e nei valori . pχ2p

Il vantaggio della quasi verosimiglianza è che corregge l'errore di base nell'assumere che i dati siano Poisson (= conteggi omogenei e indipendenti); tuttavia, risolvere il problema in questo modo potenzialmente maschera altri problemi con i dati. (Vedi sotto.) Quasi-probabilità è un modo per gestire la sovradispersione; se non affronti in qualche modo la sovradispersione, i tuoi coefficienti saranno ragionevoli ma la tua deduzione (CI, valori , ecc.) sarà spazzatura.p

  • Come commentate sopra, ci sono molti approcci diversi alla sovradispersione (Tweedie, diverse parametrizzazioni binomiali negative, quasi-probabilità, zero inflazione / alterazione).
  • Con un fattore di sovradispersione> 5 (8.4), mi preoccuperei un po 'se è guidato da una sorta di mis-fit del modello (valori anomali, zero inflazione [che vedo che hai già provato], non linearità) piuttosto che rappresentare l'eterogeneità generalizzata. Il mio approccio generale a questo è l'esplorazione grafica dei dati grezzi e la diagnostica di regressione ...

Molto utile. Vedo ora che i valori p per le variabili e i livelli di variabili nel Poisson sono molto più statisticamente significativi che per il Quasi-Poisson, a causa del ridimensionamento menzionato. Ho testato gli outlier ma non ho trovato che questo fosse un problema. Quali potrebbero essere alcuni altri problemi mascherati da sovradispersione o esempi di tali approcci per trovare tali problemi?
Frank H.

Principalmente non linearità delle risposte sulla scala dei collegamenti (log); controlla i grafici dei residui vs adattati e dei grafici dei residui vs predittori per vedere se ci sono schemi.
Ben Bolker,

1
+1 ben strutturato! Apprezzo molto la chiarezza del tuo primo paragrafo.
Alexis,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.