Poisson o quasi poisson in una regressione con dati di conteggio e sovradispersione?


16

Ho i dati di conteggio (analisi della domanda / offerta con il numero di conteggio dei clienti, a seconda - possibilmente - di molti fattori). Ho provato una regressione lineare con errori normali, ma la mia trama QQ non è davvero buona. Ho provato una trasformazione del registro della risposta: ancora una volta, trama QQ errata.

Quindi ora sto provando una regressione con errori di Poisson. Con un modello con tutte le variabili significative, ottengo:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

La devianza residua è maggiore dei gradi di libertà residua: ho una sovraispersione.

Come posso sapere se devo usare quasipoisson? Qual è l'obiettivo di quasipoisson in questo caso? Ho letto questo consiglio in "The R Book" di Crawley, ma non vedo il punto né un grande miglioramento nel mio caso.

Risposte:


18

Quando si cerca di determinare quale tipo di equazione glm si desidera stimare, si dovrebbe pensare a relazioni plausibili tra il valore atteso della variabile target data le variabili del lato destro (rhs) e la varianza della variabile target date le variabili rhs. I grafici dei residui rispetto ai valori adattati del modello normale possono essere di aiuto. Con la regressione di Poisson, la relazione assunta è che la varianza è uguale al valore atteso; piuttosto restrittivo, penso che sarai d'accordo. Con una regressione lineare "standard", si presume che la varianza sia costante indipendentemente dal valore atteso. Per una regressione quasi-poisson, si presume che la varianza sia una funzione lineare della media; per regressione binomiale negativa, una funzione quadratica.

Tuttavia, non sei limitato a queste relazioni. La specifica di una "famiglia" (diversa da "quasi") determina la relazione media-varianza. Non ho The R Book, ma immagino che abbia una tabella che mostra le funzioni familiari e le corrispondenti relazioni di media varianza. Per la famiglia "quasi" puoi specificare una qualsiasi delle diverse relazioni di media varianza e puoi persino scrivere la tua; vedere la documentazione di R . È possibile che tu riesca a trovare un adattamento molto migliore specificando un valore non predefinito per la funzione di varianza media in un modello "quasi".

Dovresti anche prestare attenzione all'intervallo della variabile target; nel tuo caso si tratta di dati di conteggio non negativi. Se hai una frazione sostanziale di valori bassi - 0, 1, 2 - le distribuzioni continue probabilmente non si adatteranno bene, ma se non lo fai, non c'è molto valore nell'uso di una distribuzione discreta. È raro che consideri le distribuzioni di Poisson e Normal come concorrenti.


Sì hai ragione. Qui ho i dati di conteggio ma con valori di grandi dimensioni. Dovrei usare una distribuzione continua.
Antonin,

8

Hai ragione, questi dati potrebbero essere sovradispersi. Quasipoisson è un rimedio: stima anche un parametro di scala (che è stato risolto per i modelli di Poisson in quanto la varianza è anche la media) e fornirà un adattamento migliore. Tuttavia, non è più la massima probabilità che cosa stai facendo, e alcuni test e indici del modello non possono essere utilizzati. Una buona discussione può essere trovata in Venables e Ripley, Modern Applied Statistics with S (Sezione 7.5) .

Un'alternativa è usare un modello binomiale negativo, ad esempio la glm.nb()funzione nel pacchetto MASS.


1
Ma sono "costretto" a usare quasipoisson in questo caso? Lo sto chiedendo poiché il mio modello non quasipoisson è migliore (solo il poisson di base) nel senso che più variabili sono significative.
Antonin,

2
Non ha senso però? Se avessi usato un modello di regressione in cui supponevo che sigma fosse .00001 invece di usare la stima dai dati (2.3 diciamo), ovviamente le cose saranno più significative.
Dason,

1
Antonin: Direi che solo perché più variabili sono significative, non rende le cose "migliori". Questi potrebbero, come ha sottolineato Dason, essere facilmente falsi positivi se si sottovaluta la varianza dell'errore. Userei sicuramente un quasi-metodo o il binomio negativo in questo caso, ma se non rivedo il tuo articolo, non sarai costretto a fare nulla;)
Momo

Grazie mille per le tue risposte! Conosci un modo per confrontare i modelli binomiali quasi-poisson e negativi? Nella maggior parte dei libri, presentano i modelli ma non spiegano come scegliere tra di loro.
Antonin,

1
Dall'output, sembra che stai adattando 53-17 = 16 parametri a 53 + 1 = 54 punti dati; è giusto? In tal caso, qualsiasi metodo che si basa su approssimazioni asintotiche, compreso l'uso di glm()ed glm.nb()è suscettibile di fornire inferenze mal calibrate; sarebbe ragionevole aspettarsi che la precisione sia sopravvalutata. Sarebbe utile sapere di più sul perché vuoi fare questa regressione; è invece possibile utilizzare metodi che offrono prestazioni migliori in piccole situazioni di esempio.
ospite
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.