Modellazione parametrica della varianza dei dati di conteggio


12

Sto cercando di modellare alcuni dati, ma non sono sicuro del tipo di modello che posso usare. Ho dei dati di conteggio e desidero un modello che fornisca stime parametriche della media e della varianza dei dati. Cioè, ho vari fattori predittivi e voglio determinare se qualcuno di essi influenza la varianza (non solo la media del gruppo).

So che la regressione di Poisson non funzionerà perché la varianza è uguale alla media; questa ipotesi non è valida nel mio caso, quindi so che c'è sovradispersione. Tuttavia, un modello binomiale negativo genera solo un singolo parametro di sovradispersione, non uno che è una funzione dei predittori nel modello. Quale modello può fare questo?

Inoltre, sarebbe apprezzato un riferimento a un libro o un documento che discute il modello e / o un pacchetto R che implementa il modello.


1
Come fai a sapere che c'è sovradispersione senza prima fare la regressione di Poisson? Dopotutto, confrontare la varianza dei valori grezzi (di risposta) con la loro media non è rilevante: ciò che conta è la bontà di adattamento del modello di Poisson (questo è l'analogo della valutazione della distribuzione dei residui in un modello lineare rispetto alla valutazione la distribuzione della variabile di risposta). Un altro modo per dirlo è che il collegamento tra le variabili indipendenti e la risposta può creare l'apparenza di sovraispersione anche in un modello di Poisson meravigliosamente accurato.
whuber

2
@whuber Questo è un punto giusto. Per un singolo predittore categorico, osservare la varianza e la media dei sottogruppi sarebbe sufficiente per rilevare la sovradispersione, ma per una regressione multivariata di Poisson, non lo è. Per ragioni di ipotesi, supponiamo che sia stata fatta una regressione binomale negativa e di Poisson e che il binomio negativo mostri una migliore corrispondenza attraverso il confronto tra modelli anova. Ciò dovrebbe indicare una sovradispersione. Detto questo, come è possibile modellare la varianza / sovradispersione in modo parametrico anziché come costante?
Brian Diggs,

1
Penso che ci sia un capitolo in McCullagh e Nelder, Modelli lineari generalizzati, 2a edizione , che copre questo (ma la mia copia è al lavoro) ... non ci sarà una reale probabilità, ma puoi usare la quasi-verosimiglianza, e quindi potrebbe essere il titolo del capitolo. Si applicano minimi quadrati iterativamente ripesati anche se non esiste un modello di probabilità corrispondente.
Karl,

Il capitolo 10 di McCullagh e Nelder discute la modellizzazione congiunta di media e dispersione, ovvero la parametrizzazione sia della media che della varianza. La quasi-verosimiglianza estesa è lo strumento principale, ma in alcune situazioni possono esserci preoccupazioni riguardo a quel metodo
ospite

Risposte:


9

Puoi modellare lo stesso parametro di dispersione binomiale negativa in funzione di variabili e parametri usando il pacchetto gamlss in R. Fornisco un estratto da un'introduzione ad esso:

Perché dovrei usare GAMLSS

Se la variabile di risposta è conteggio (discreto) dei dati, è molto probabile che la distribuzione di Poisson non si adatti bene. GAMLSS offre una varietà di distribuzioni discrete (incluso il binomio negativo) che puoi provare. Il parametro di dispersione può anche essere modellato in funzione di variabili esplicative.

Il sito Web www.gamlss.org contiene documentazione e collegamenti a numerosi articoli sugli approcci utilizzati nel pacchetto.


Entrambe le risposte sono utili e forniscono buoni riferimenti. Sto assegnando la generosità a questo perché (a) ha preceduto l'altro di quattro minuti e (b) la soluzione gamlss è nuova per me (ho familiarità con nbreg). Ma va a @timbp per aver fornito una buona risposta; Spero che continuerai a contribuire al nostro sito.
whuber

2
@whuber, sono stato anche strappato a quale accettare come "la" risposta perché entrambi sono stati molto utili. Sono andato con questo perché includeva un riferimento al pacchetto R che posso usare; il riferimento del libro nell'altra risposta è stato una buona lettura e non dovrebbe essere scontato. Grazie per aver offerto la generosità che ha spinto queste due buone risposte.
Brian Diggs,

9

Stata fornisce il comando -gnbreg-, che consente di modellare il parametro dispersion. È possibile visualizzare la guida di Stata per il comando all'indirizzo http://www.stata.com/help.cgi?nbreg

Stata chiama questo il modello binomiale negativo generalizzato. Joseph Hilbe ne parla nel suo libro "Regressione binomiale negativa", sezione 10.4, come "NB-H: regressione binomiale negativa eterogenea".

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.