Strategia per decidere il modello appropriato per i dati di conteggio


16

Qual è la strategia appropriata per decidere quale modello utilizzare con i dati di conteggio? Ho dei dati di conteggio che devo modellare come modello multilivello e mi è stato consigliato (su questo sito) che il modo migliore per farlo è tramite bug o MCMCglmm. Tuttavia sto ancora cercando di conoscere le statistiche bayesiane e ho pensato che avrei dovuto prima provare ad adattare i miei dati come modelli lineari generalizzati e ignorare la struttura nidificata dei dati (solo così posso avere una vaga idea di cosa aspettarmi).

Circa il 70% dei dati sono 0 e il rapporto di varianza rispetto alla media è 33. Quindi i dati sono piuttosto dispersi.

Dopo aver provato una serie di opzioni diverse (tra cui poisson, binomio negativo, modello gonfiato quasi e zero) vedo poca coerenza nei risultati (variare da tutto ciò che è significativo a nulla è significativo).

Come posso prendere una decisione informata su quale tipo di modello scegliere in base all'inflazione 0 e all'eccessiva dispersione? Ad esempio, come posso dedurre che il quasi-poisson è più appropriato del binomio negativo (o viceversa) e come posso sapere che l'uso di uno di essi ha gestito adeguatamente (o meno) gli zeri in eccesso? Allo stesso modo, come posso valutare che non vi è più dispersione eccessiva se viene utilizzato un modello a gonfiaggio zero? o come dovrei decidere tra un poisson gonfiato zero e un binomio negativo zero gonfiato?

Risposte:


9

Puoi sempre confrontare i modelli di conteggio osservando le loro previsioni (preferibilmente su un set di controllo). J. Scott Long ne discute graficamente (tracciando i valori previsti rispetto ai valori reali). Il suo libro di testo qui descrive in dettaglio ma puoi anche guardare 6.4 in questo documento .

Puoi confrontare i modelli usando AIC o BIC e c'è anche un test chiamato test Voung che non conosco molto bene ma che può confrontare zero modelli gonfiati con modelli non nidificati. Ecco un articolo di Sas che lo descrive brevemente a pagina 10 per iniziare. È anche impiantato in post di R.


Grazie per il consiglio. Cercherò sicuramente di esaminare le previsioni prima di decidere il modello
George Michaelides,

5

Un paio di cose da aggiungere a ciò che B_Miner ha detto:

1) Hai scritto che i modelli variavano da "tutto significativo" a "niente di significativo", ma questo non è un buon modo per confrontare i modelli. Guarda invece i valori previsti (come suggerito da B_miner) e le dimensioni dell'effetto.

2) Se il 70% dei dati è 0, non riesco a immaginare che un modello senza 0 inflazione sia appropriato.

3) Anche se non vuoi diventare Bayesiano, puoi usare i GLMM in SAS (PROC GLIMMIX o NLMIXED) e in R (vari pacchetti). Ignorare la natura nidificata può rovinare tutto.

4) In generale, decidere quale modello è il migliore è un'arte, non una scienza. Ci sono statistiche da usare, ma sono una guida al giudizio. Solo guardando quello che hai scritto, direi che un modello ZINB sembra giusto


L'intenzione è che alla fine proverò a modellarlo usando Bayesian, ma stavo cercando di capire come posso prendere una decisione prima di adattare i modelli. Se esiste la possibilità che ignorare la natura nidificata dei dati incasini le cose, le proverò prima con i GLMM. L'unico pacchetto per R di cui sono a conoscenza che può fare ZINB multilivello è glmmADMB. Consiglieresti altri pacchetti?
George Michaelides,

4

La mia comprensione è che le distribuzioni a zero inflazione dovrebbero essere utilizzate quando esiste una logica per determinati articoli per produrre conteggi di zero rispetto a qualsiasi altro conteggio. In altre parole, dovrebbe essere usata una distribuzione a zero inflazione se gli zero sono prodotti da un processo separato rispetto a quello che produce gli altri conteggi. Se non si ha una logica per questo, data la sovradispersione nel campione, suggerisco di utilizzare una distribuzione binomiale negativa perché rappresenta accuratamente l'abbondanza di zero e rappresenta l'eterogeneità non osservata stimando liberamente questo parametro. Come accennato in precedenza, il libro di Scott Long è un ottimo riferimento.


Grazie per la tua risposta. In effetti, ho iniziato a pensare se oggetti diversi potessero produrre gli 0 rispetto a qualsiasi altro conteggio e in realtà penso che ci siano un paio di mie variabili che spiegherebbero solo gli 0 rispetto a qualsiasi altro conteggio. Quindi probabilmente dovrei almeno provare prima ZINB per vedere se queste mie variabili funzionano nel modo in cui mi aspetto che funzionino.
George Michaelides,

3

assolutamente d'accordo con quello che ha detto Matt, prima devi pensare allo sfondo dei dati ... Non ha senso adattarsi ai modelli ZI, quando non ci sono trigger che generano Zero nella popolazione! Il vantaggio dei modelli NB è che possono visualizzare eterogeneità inosservata in una variabile casuale distribuita gamma. Tecnicamente: i motivi principali dell'iperdispersione sono l'eterogenità e l'inflazione zero. Non credo che la tua forma sia sbagliata. A proposito, per ottenere la bontà di adattamento dovresti sempre confrontare la Devianza con i gradi di libertà del tuo modello. Se Devianza D è maggiore di n- (p + 1) (questo è df) di quanto si dovrebbe cercare un modello migliore. Sebbene per lo più non ci siano modelli migliori di ZINB per sbarazzarsi della sovradispersione.

se vuoi adattare uno ZINB con R, ottieni il pacchetto pscle prova a usare il comando zeroinfl(<model>, dist=negative). Per ulteriori informazioni vedere ?zeroinfldopo aver caricato il pacchetto richiesto!

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.