La regressione lineare non è la scelta giusta per il tuo risultato, dato:
- La variabile di risultato non è normalmente distribuita
- La variabile di risultato è limitata nei valori che può assumere (contare i dati significa che i valori previsti non possono essere negativi)
- Quella che sembra essere un'alta frequenza di casi con 0 visite
Modelli variabili dipendenti limitati per i dati di conteggio
La strategia di stima che puoi scegliere è dettata dalla "struttura" della tua variabile di risultato. Cioè, se la tua variabile di risultato è limitata nei valori che può assumere (cioè se è una variabile dipendente limitata ), devi scegliere un modello in cui i valori previsti rientreranno nell'intervallo possibile per il tuo risultato. Mentre a volte la regressione lineare è una buona approssimazione per variabili dipendenti limitate (ad esempio, nel caso di logit / probit binari), spesso non lo è. Inserisci modelli lineari generalizzati . Nel tuo caso, poiché la variabile di risultato sono i dati di conteggio, hai diverse opzioni:
- Modello di Poisson
- Modello binomiale negativo
- Modello Zero Inflated Poisson (ZIP)
- Modello binomiale negativo zero gonfiato (ZINB)
La scelta è di solito determinata empiricamente. Discuterò brevemente la scelta tra queste opzioni di seguito.
Poisson vs. Binomio negativo
θH0:θ=0H1:θ≠0θ
ZIP vs. ZINB
Una potenziale complicazione è l'inflazione zero, che potrebbe essere un problema qui. È qui che entrano in gioco i modelli a zero zero ZIP e ZINB. Utilizzando questi modelli, si assume che il processo che genera i valori zero sia separato dal processo che genera gli altri valori diversi da zero. Come in precedenza, ZINB è appropriato quando il risultato ha zero eccessivi ed è sovradisperso, mentre ZIP è appropriato quando il risultato ha zero eccessivi ma media condizionale = varianza condizionale. Per i modelli a inflazione zero, oltre alle covariate del modello che hai elencato sopra, dovrai pensare alle variabili che potrebbero aver generato gli zero in eccesso che hai visto nel risultato. Ancora una volta, ci sono test statistici forniti con l'output di questi modelli (a volte potresti doverli specificare quando esegui un comando) che ti permetterannoθ
θH0:θ=0H1:θ≠0H0:Excess zeroes is not a result of a separate processH1:Excess zeroes is a result of a separate process
θθ
Infine, non uso R, ma la pagina degli esempi di analisi dei dati di IDRE presso l'UCLA può guidarti nell'adattamento di questi modelli.
[Modifica di un altro utente senza sufficiente reputazione per commentare: questo documento spiega perché non dovresti usare il test Vuong per confrontare un modello a zero inflazione e fornisce alternative.
P. Wilson, "L'uso improprio del test Vuong per i modelli non nidificati per verificare l'inflazione zero". Economics Letters, 2015, vol. 127, edizione C, 51-53 ]