Vorrei testare quale regressione si adatta meglio ai miei dati. La mia variabile dipendente è un conteggio e ha molti zeri.
E avrei bisogno di un po 'di aiuto per determinare quale modello e famiglia usare (poisson o quasipoisson, o regressione di poisson zero-inflated) e come testare i presupposti.
- Regressione di Poisson: per quanto ho capito, il presupposto forte è che la variabile dipendente media = varianza. Come lo testate? Quanto vicini devono essere? La media e la varianza incondizionata o condizionale sono usate per questo? Cosa devo fare se questo presupposto non regge?
- Ho letto che se la varianza è maggiore della media, abbiamo una sovradispersione e un modo potenziale per affrontarla è includere variabili più indipendenti, o family = quasipoisson. Questa distribuzione ha altri requisiti o ipotesi? Quale test devo usare per vedere se (1) o (2) si adatta meglio, semplicemente
anova(m1,m2)
? - Ho anche letto che la distribuzione binomiale negativa può essere usata quando appare una sovradispersione. Come posso farlo in R? Qual è la differenza con quasipoisson?
Regressione di Poisson a gonfiaggio zero: ho letto che l'uso del test vuong verifica quali modelli si adattano meglio.
> vuong (model.poisson, model.zero.poisson)
È corretto? Quali ipotesi ha una regressione a inflazione zero?
Academic Technology Services, Statistical Consulting Group della UCLA ha una sezione sulle regressioni di Poisson a gonfiaggio zero e verifica il modello a zero inflazione (a) rispetto al modello di poisson standard (b):
> m.a <- zeroinfl(count ~ child + camper | persons, data = zinb)
> m.b <- glm(count ~ child + camper, family = poisson, data = zinb)
> vuong(m.a, m.b)
Non capisco cosa fa la | persons
parte del primo modello e perché è possibile confrontare questi modelli. Mi aspettavo che la regressione fosse la stessa e usassi solo una famiglia diversa.