Scelta di alternative alla regressione di Poisson per dati di conteggio troppo dispersi


12

Attualmente sto analizzando i dati di una serie di esperimenti comportamentali che utilizzano tutti la seguente misura. Ai partecipanti a questo esperimento viene chiesto di selezionare indizi che (fittizi) altre persone potrebbero usare per aiutare a risolvere una serie di 10 anagrammi. I partecipanti sono portati a credere che queste altre persone guadagneranno o perderanno denaro, a seconda delle loro prestazioni nel risolvere gli anagrammi. Gli indizi variano in quanto sono utili. Ad esempio, per l'anagramma NUNGRIN, un anagramma di RUNNING, tre indizi potrebbero essere:

  1. Muoversi rapidamente (inutile)
  2. Cosa fai in una gara di maratona (utile)
  3. Non sempre un hobby sano (inutile)

Per formare la misura, conto il numero di volte (su 10) in cui un partecipante sceglie un indizio inutile per l'altra persona. Negli esperimenti, sto usando una varietà di manipolazioni diverse per influenzare l'utilità degli indizi che le persone selezionano.

Poiché la misura di disponibilità / non utilità è distorta in modo abbastanza positivo (gran parte delle persone sceglie sempre i 10 indizi più utili) e poiché la misura è una variabile di conteggio, ho usato un modello lineare generalizzato di Poisson per analizzare questi dati. Tuttavia, quando ho fatto qualche lettura in più sulla regressione di Poisson, ho scoperto che poiché la regressione di Poisson non stima in modo indipendente la media e la varianza di una distribuzione, spesso sottovaluta la varianza in un insieme di dati. Ho iniziato a studiare alternative alla regressione di Poisson, come la regressione quasipoisson o la regressione binomiale negativa. Tuttavia, ammetto di essere piuttosto nuovo con questo tipo di modelli, quindi vengo qui per un consiglio.

Qualcuno ha qualche consiglio su quale modello utilizzare per questo tipo di dati? Ci sono altre considerazioni di cui dovrei essere a conoscenza (ad esempio, un modello particolare è più potente di un altro?)? Che tipo di diagnostica devo esaminare per determinare se il modello che seleziono gestisce i miei dati in modo appropriato?


Che dire di un robusto stimatore di varianza / covarianza per allentare l'ipotesi che la varianza sia uguale alla media?
boscovich,

2
Dal momento che sono dati di conteggio e non negativi, che dire del quassi-poisson o di un modello di regressione binomiale negativo, che spiega la dispersione?
Arun,

1
Ho pensato di utilizzare un modello binomiale quasi-poisson o negativo, ma ciò che non capisco è quale tipo di diagonistica guardare per assicurarmi che sto modellando i miei dati in modo appropriato. Dal momento che ci sono diverse alternative (modelli quasi-poisson, binomiali negativi e "a incremento zero"), mi chiedo anche se esiste un buon modo per scegliere tra queste alternative. Ad esempio, un metodo è generalmente più potente degli altri?
Patrick S. Forscher,

1
Dipende dai dati. Perché non adattarli tutti ai tuoi dati (Poisson, binomio negativo, Poisson gonfiato a zero e binomio negativo, modelli di ostacolo per quelli in questione) e confrontarli tramite dire, AIC o BIC? Vedi cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf Quindi scegli quello più adatto ai tuoi dati. Potresti anche usare modelli quasi verosimili, ma è una questione di gusti, non mi piacciono molto.
Momo,

1
Per verificare quale distribuzione potrebbe essere un buon modello per la tua risposta, puoi usare la funzione vcd :: distplot.
Momo,

Risposte:


12

Il tuo risultato è il numero di indizi utili su 10, che è una variabile casuale binomiale. Quindi dovresti analizzarlo con una sorta di regressione binomiale, probabilmente quasi binomiale per consentire una sovradispersione. Si noti che la distribuzione binomiale negativa Poisson e le denominazioni fuorvianti sono adatte per i dati di conteggio illimitati.


2
Ho citato il binomio negativo perché è un'alternativa sovradispersa al Poisson suggerita inizialmente dal poser. Poiché ogni intervistato ha x / 10 indizi, potrebbe essere binomiale, ma per ciascuno dei 10 indizi esiste una probabilità fissa pi per l'i intervistato e le occorrenze sono indipendenti. Questo potrebbe non essere il caso.
Michael R. Chernick,

2
il beta-binomio è un'altra possibilità (il beta-binomio sta al binomio come il binomio negativo è al Poisson). betabinnel aodpacchetto lo farà.
Ben Bolker,

5

Vorrei anche raccomandare di guardare il binomio negativo se i possibili risultati fossero infiniti come per il Poisson. Potresti consultare uno dei libri di Joe Hilbe. Ne ha uno su GEE e uno sulla regressione binomiale negativa che contrasta con la regressione di Poisson. Ma come è stato sottolineato da Aniko ci sono solo 10 indizi, quindi ogni intervistato può avere solo 0, 1, 2, 3, ..., 10 e quindi né Poisson né esponenziale negativo sono appropriati.


4

Buon punto di @Aniko. Un'altra scelta è la regressione beta. C'era un documento con il titolo "A Better Lemon Squeezer" che forniva molte informazioni su questo metodo.


2
Ma la beta verrebbe usata per modellare una proporzione e non una variabile di conteggio su un insieme finito di numeri interi.
Michael R. Chernick,

Ha usi più ampi, @MichaelChernick, vedi l'articolo, che è abbastanza buono.
Peter Flom - Ripristina Monica

@PeterFlom Inoltre non può gestire i dati sull'intervallo [0,1], solo (0,1).
Colin,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.