Qual è il modello appropriato per i dati di conteggio sottodispersi?


24

Sto cercando di modellare i dati di conteggio in R che sono apparentemente sottodispersi (parametro di dispersione ~ .40). Questo è probabilmente il motivo per cui un glmcon family = poissono binomiale negativa ( glm.nbmodello) non sono significativi. Quando guardo i descrittivi dei miei dati, non ho la tipica inclinazione dei dati di conteggio e anche i residui nelle mie due condizioni sperimentali sono omogenei.

Quindi le mie domande sono:

  1. Devo anche usare analisi di regressione speciali per i miei dati di conteggio, se i miei dati di conteggio non si comportano davvero come i dati di conteggio? A volte mi trovo ad affrontare una non normalità (di solito a causa della curtosi), ma ho usato il metodo percentile del bootstrap per confrontare i mezzi tagliati (Wilcox, 2012) per spiegare la non normalità. I metodi per i dati di conteggio possono essere sostituiti da qualsiasi metodo valido suggerito da Wilcox e realizzato nel pacchetto WRS?

  2. Se devo utilizzare le analisi di regressione per i dati di conteggio, come posso tenere conto della sotto dispersione? Il Poisson e la distribuzione binomiale negativa assumono una dispersione più elevata, quindi non dovrebbe essere appropriato, giusto? Stavo pensando di applicare la distribuzione di quasi-Poisson , ma di solito è consigliata per un'eccessiva dispersione. Ho letto dei modelli beta-binomiali che sembrano essere in grado di spiegare la sovra-e la sottodispersione sono disponibili nel VGAMpacchetto di R. Gli autori sembrano tuttavia raccomandare una distribuzione di Poisson ridotta , ma non riesco a trovarlo nel pacchetto .

Qualcuno può raccomandare una procedura per i dati non dispersi e forse fornire qualche esempio di codice R per esso?


1
Come fai a sapere se i tuoi dati sono sottodispersi? Come stai calcolando il parametro di dispersione?
Hong Ooi,

1
Aiuterebbe anche a dirci di più su ciò che ti interessa. Per le stime lineari dei punti predittivi e la previsione dei valori, la sottodispersione raramente è un problema, ma i test e gli intervalli potrebbero essere inutilmente conservativi (quasi le famiglie lo aiuterebbero). Detto questo, per un approccio di verosimiglianza "normale", controlla il COM Poisson e altri modelli Poisson generalizzati.
Momo,

@ Hung Ooi: ho testato la dispersione con dispersiontest (Poissonmodel, alternativa = c ("meno")) e il test si è rivelato significativo.
Sil

1
@ Momo: voglio verificare se la negoziazione di diadi in due condizioni sperimentali differisce nelle offerte corrette che fanno. Le offerte corrette significano che le diadi rivendicano più problemi che corrispondono ai rispettivi interessi dei loro team invece di rivendicare problemi più preziosi per l'altra parte. Innanzitutto, non ero nemmeno consapevole che si tratta di dati di conteggio. Intendi la distribuzione Conway-Maxwell-Poisson di COM Poisson? Grazie mille già!
Sil

3
Grazie per le informazioni aggiuntive. Sì, intendevo il poisson di Conway-Maxwell. Shmueli & co ha sviluppato un tipo di modello lineare generalizzato per questo, c'è anche un pacchetto R se vuoi provare.
Momo,

Risposte:


9

Il modo migliore --- e standard per gestire i dati di Poisson scarsamente distribuiti è usando un Poisson generalizzato, o forse un modello di ostacolo. Tre dati di conteggio dei parametri possono essere utilizzati anche per dati non dispersi; ad esempio Faddy-Smith, Waring, Famoye, Conway-Maxwell e altri modelli di conteggio generalizzati. L'unico inconveniente con questi è l'interpretazione. Ma per i dati generali sottodispersi dovrebbe essere usato il Poisson generalizzato. È come un binomio negativo per i dati sovradispersi. Ne discuto in dettaglio in due dei miei libri, Modeling Count Data (2014) e Negative Binomial Regression, 2nd edition, (2011), entrambi della Cambridge University Press. In R il pacchetto VGAM consente la regressione generalizzata di Poisson (GP). Valori negativi del parametro dispersione indicano aggiustamento per sottodispersione. Puoi utilizzare il modello GP anche per dati sovradispersi, ma generalmente il modello NB è migliore. Quando si tratta di esso, è meglio determinare la causa della sottodispersione e quindi selezionare il modello più appropriato per affrontarlo.


Ben tornato! Per favore registrati e / o unisci i tuoi account (puoi trovare informazioni su come farlo nella sezione Il mio account del nostro centro assistenza ), quindi sarai in grado di modificare e commentare la tua domanda. (Il tuo account originale è qui .)
gung - Ripristina Monica

Puoi eseguire un'analisi Poisson generalizzata su SPSS?
Grace Carroll,

3

Una volta ho incontrato un Poisson disperso che aveva a che fare con la frequenza con cui la gente avrebbe giocato un gioco sociale. Si è scoperto che ciò era dovuto all'estrema regolarità con cui la gente avrebbe giocato il venerdì. La rimozione dei dati del venerdì mi ha dato il previsto Poisson sovradisperso. Forse hai la possibilità di modificare in modo simile i tuoi dati.


1

Ci sono situazioni in cui la sottodispersione si fonde a zero inflazione, che è tipica per i bambini preferiti conta da individui di entrambi i sessi. Non ho trovato un modo per catturarlo fino ad oggi

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.