Sovradispersione e sottodispersione nella regressione binomiale / di Poisson negativa


11

Stavo eseguendo una regressione di Poisson in SAS e ho scoperto che il valore chi-quadrato di Pearson diviso per i gradi di libertà era di circa 5, indicando una significativa sovraispersione. Quindi, ho inserito un modello binomiale negativo con proc genmod e ho scoperto che il valore chi-quadrato di Pearson diviso per i gradi di libertà è 0,80. Questo è ora considerato sottodisperso? Se è così, come si fa a gestire questo? Ho letto molto sull'overdispersion e credo di sapere come gestirlo, ma le informazioni su come gestire o determinare se c'è sottodispersione sono scarse. Qualcuno può aiutare?

Grazie.


Risposte:


17

Per una distribuzione di Poisson con media la varianza è anche . Nell'ambito dei modelli lineari generalizzati ciò implica che la funzione di varianza è per il modello di Poisson. Questo presupposto del modello può essere errato per molte ragioni diverse. Ad esempio, si incontrano spesso dati di conteggio sovradispersi con una varianza maggiore di quanto impone la distribuzione di Poisson. μ V ( μ ) = μμμ

V(μ)=μ

Le deviazioni dall'assunto di varianza in un contesto di regressione possono assumere diverse forme. La più semplice è che la funzione di varianza è uguale a con un parametro di dispersione . Questo è il modello quasi-Poisson. Fornirà lo stesso modello di regressione adattato, ma l'inferenza statistica ( valori e intervalli di confidenza) viene regolata per sovra o sottodispersione usando un parametro di dispersione stimato.ψ > 0 p

V(μ)=ψμ
ψ>0p

La forma funzionale della funzione varianza può anche essere errata. Potrebbe essere un polinomio di secondo grado diciamo. Gli esempi includono il binomio, il binomio negativo e il modello gamma. La scelta di uno di questi modelli in alternativa al modello di Poisson influirà sul modello di regressione adattato e sulla successiva inferenza statistica. Per la distribuzione binomiale negativa con parametro di forma la funzione varianza è Da questo possiamo vedere che se otteniamo la funzione varianza per la distribuzione di Poisson.λ > 0 V ( μ ) = μ ( 1 + μ

V(μ)=un'μ2+Bμ+c,
λ>0λ
V(μ)=μ(1+μλ).
λ

Per determinare se la funzione di varianza per il modello di Poisson è appropriata per i dati, possiamo stimare il parametro di dispersione come suggerisce l'OP e verificare se è approssimativamente 1 (forse usando un test formale). Tale test non suggerisce un'alternativa specifica, ma è chiaramente compreso nel modello quasi-Poisson. Per verificare se la forma funzionale della funzione varianza è appropriata, potremmo costruire un test del rapporto di verosimiglianza del modello di Poisson ( ) rispetto al modello binomiale negativo ( ). Si noti che ha una distribuzione non standard sotto l'ipotesi nulla. Oppure potremmo usare metodi basati su AIC in generale per confrontare modelli non nidificati. Test basati sulla regressione per sovradispersione nel modello di Poissonλ < λ=λ< esplora una classe di test per le funzioni di varianza generale.

Tuttavia, consiglierei prima di tutto di studiare i grafici residui, ad esempio un grafico di Pearson o dei residui di devianza (o il loro valore al quadrato) rispetto ai valori adattati. Se la forma funzionale della varianza è errata, vedrai questa come una forma a imbuto (o una tendenza per i residui quadrati) nel grafico residuo. Se la forma funzionale è corretta, ovvero nessun imbuto o tendenza, potrebbero esserci ancora sovra o sottodispersione, ma ciò può essere giustificato stimando il parametro di dispersione. Il vantaggio del diagramma residuo è che suggerisce più chiaramente di un test cosa c'è che non va nella funzione di varianza.

Nel caso concreto del PO non è possibile stabilire se 0,8 indica una sottodispersione rispetto alle informazioni fornite. Invece di concentrarmi sulle stime 5 e 0,8, suggerisco innanzitutto di esaminare l'adattamento delle funzioni di varianza del modello di Poisson e del modello binomiale negativo. Una volta determinata la forma funzionale più appropriata della funzione di varianza, un parametro di dispersione può essere incluso, se necessario, in entrambi i modelli per regolare l'inferenza statistica per ogni ulteriore sovra o sottodispersione. Come farlo facilmente in SAS, diciamo, purtroppo non è qualcosa con cui posso aiutare.


2
+1, questa è una buona informazione generale. Potrebbe essere più utile per il PO se hai affrontato in modo specifico le domande esplicite del PO: (1) è .8 sottodisperso; & (2) in tal caso, come gestirlo.
gung - Ripristina Monica

@gung, ho modificato la risposta per dare consigli più specifici. Non è possibile determinare se 0,8 è significativamente inferiore a 1 dalle informazioni disponibili e IMHO focalizzato sul fatto che il parametro di dispersione sia 1 è una deviazione. La mia modifica spiega su cosa penso che l'OP dovrebbe concentrarsi invece.
NRH
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.