Quando utilizzare i GLM binomiali Poisson vs. geometrici vs. negativi per i dati di conteggio?


21

Sto cercando di impaginare da solo quando è appropriato usare quale tipo di regressione (geometrico, Poisson, binomiale negativo) con i dati di conteggio, all'interno del framework GLM (solo 3 delle 8 distribuzioni GLM sono usate per i dati di conteggio, sebbene la maggior parte di ciò che Ho letto i centri attorno alle distribuzioni binomiali e di Poisson negative).

Quando utilizzare i GLM binomiali Poisson vs. geometrici vs. negativi per i dati di conteggio?


Finora ho la seguente logica: conta i dati? Se sì, la media e la varianza sono disuguali? Se sì, regressione binomiale negativa. In caso negativo, regressione di Poisson. C'è zero inflazione? In caso affermativo, Poisson zero gonfiato o binomio negativo zero gonfiato.

Domanda 1 Non sembra esserci una chiara indicazione di quale utilizzare quando. C'è qualcosa per informare quella decisione? Da quello che ho capito, una volta che si passa a ZIP, la varianza media a parità di ipotesi si attenua, quindi è abbastanza simile a NB.

Domanda 2 Dove si inserisce la famiglia geometrica in questo o quale tipo di domande dovrei fare dei dati quando decido se usare una famiglia geometrica nella mia regressione?

Domanda 3 Vedo persone che scambiano continuamente il binomio negativo e le distribuzioni di Poisson ma non geometriche, quindi immagino che ci sia qualcosa di nettamente diverso su quando usarlo. Se è così, che cosa è?

PS Ho fatto un diagramma (probabilmente semplificato, dai commenti) ( modificabile ) della mia attuale comprensione se la gente volesse commentare / modificare la discussione. Conteggio dati: albero decisionale GLM


Ho solo familiarità con la programmazione R, ma spero che questo aiuto ... stats.stackexchange.com/questions/60643/…
RYO ENG Lian Hu

@RYOENG, l'ho visto e ho esposto la differenza descritta nella mia domanda con l'albero della logica. Sono particolarmente interessato a una dist. Meno discussa, vale a dire la dist geometrica.
timothy.s.lau

(AGGIORNAMENTO) La risposta di @Nick Cox qui: stats.stackexchange.com/questions/67547/when-to-use-gamma-glms sembra capitolare il sentimento che ho visto finora cercando "È difficile da definire abbastanza quando usarlo oltre una risposta vuota di ogni volta che funziona meglio "
timothy.s.lau

@Glen_b buona cattura, ho aggiornato la logica.
timothy.s.lau,

Probabilmente stai sicuramente rimuovendo il paragrafo su come essere cancellato dalle mod.
Glen_b

Risposte:


12

Sia la distribuzione di Poisson che la distribuzione geometrica sono casi speciali della distribuzione binomiale negativa (NB). Una notazione comune è che la varianza di NB è dove è l'attesa e è responsabile della quantità di (eccessiva) dispersione. A volte viene utilizzato anche . Il modello di Poisson ha , ovvero equidispersione, e il geometrico ha .μ+1/θμ2μθα=1/θθ=θ=1

Quindi, in caso di dubbio tra questi tre modelli, consiglierei di stimare il NB: il caso peggiore è che si perde un po 'di efficienza stimando un parametro in eccesso. Ma, naturalmente, ci sono anche test formali per valutare se un certo valore per (ad esempio, 1 o ) è sufficiente. Oppure puoi usare criteri di informazione ecc.θ

Naturalmente, ci sono anche un sacco di altre distribuzioni di dati di conteggio a parametro singolo o multiplo (incluso il composto Poisson che hai menzionato) che a volte possono o meno portare a adattamenti significativamente migliori.

Per quanto riguarda gli zeri in eccesso: le due strategie standard prevedono l'utilizzo di una distribuzione dei dati di conteggio a zero zero o un modello di ostacolo costituito da un modello binario per zero o maggiore e un modello di dati di conteggio a zero zero. Come accennato, gli zeri in eccesso e la sovraispersione possono essere confusi, ma spesso rimane una notevole sovraispersione anche dopo aver regolato il modello per gli zeri in eccesso. Ancora una volta, in caso di dubbio, consiglierei di utilizzare un modello di inflazione o ostacolo zero basato su NB con la stessa logica di cui sopra.

Disclaimer: questa è una panoramica molto breve e semplice. Quando si applicano i modelli in pratica, consiglierei di consultare un libro di testo sull'argomento. Personalmente, mi piacciono i libri di dati sui conteggi di Winkelmann e quelli di Cameron & Trivedi. Ma ce ne sono anche altri buoni. Per una discussione basata su R, potrebbe piacerti anche il nostro documento in JSS ( http://www.jstatsoft.org/v27/i08/ ).


4
È un tipo particolare di sovradispersione (perché ). In un certo senso, tuttavia, la quantità di sovradispersione è fissa, mentre in NB la quantità di sovradispersione viene stimata attraverso un parametro aggiuntivo. μ+μ2>μ
Achim Zeileis,

3
No, come ho scritto: se non avessi altre conoscenze precedenti, inizierei con NB (non con Poisson). E prenderei in considerazione il caso speciale della distribuzione geometrica se questa ha un'interpretazione accattivante per la mia applicazione. Più spesso, l'obiettivo principale è l'inferenza sulla media comunque, quindi testare la geometria contro l'NB non è molto interessante. μ
Achim Zeileis,

3
Come potresti aver potuto dire dai miei precedenti commenti: non sono un fan di diagrammi di flusso così semplicistici. Per scegliere un buon modello è necessario comprendere le connessioni tra i modelli e la loro relazione con l'applicazione pratica. Se potresti essere interessato o meno alla geometria dipende dal caso di domanda che hai. Allo stesso modo, per zero inflazione vs. ostacolo (che hai omesso dal grafico). Infine, l'ordine delle domande non è necessariamente lo stesso per tutte le applicazioni, ecc.
Achim Zeileis,

2
Ho capito che il mio schizzo sembra un po 'troppo semplificato. Ma per gli studenti di scienze non è raro iniziare con schemi piuttosto semplicistici, se hai preso lezioni di fisica hai familiarità con la frequenza con cui cambiano e infrangono le "regole" che hai precedentemente appreso, che sono le basi di un altro comprensione esperta e sfumata. Quindi, per motivi di apprendimento, sono uno studente laureato, stavo semplicemente cercando di ottenere una comprensione più "corretta" delle basi che potrei sviluppare in seguito, ad esempio ostacoli, ecc. Grazie per i riferimenti BTW, esaminerò i libri di testo hai menzionato così come il tuo documento.
timothy.s.lau,

1
Penso che quasi-NB non aggiungerebbe molto a quasi-Poisson. Hai la stessa funzione media e abbandoni anche la probabilità (ovvero, hai solo un modello medio ma non un modello probabilistico). Quindi l'unica differenza è che nel caso di NB2 hai una funzione di varianza leggermente diversa mentre NB1 avrebbe anche la stessa funzione di varianza. Quindi, la mia raccomandazione sarebbe di usare semplicemente il quasi-Poisson per un modello di regressione medio - e iniziare con NB se voglio avere un modello di regressione probabilistico. log(μio)=Xioβ
Achim Zeileis,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.