Regressione con dati distorti

11

Cercare di calcolare i conteggi delle visite in base a dati demografici e servizi. I dati sono molto distorti.

Gli istogrammi:

istogrammi

grafici qq (a sinistra è il registro):

grafici qq - il diritto è log

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

citye servicesono variabili fattoriali.

Ottengo un valore p basso *** per tutte le variabili, ma ottengo anche un basso r-quadrato di 0,05. Cosa dovrei fare? Un altro modello funzionerebbe, come esponenziale o qualcosa del genere?

— pxxd
fonte

Dato che quello che inizialmente pensavo fosse un'alta frequenza di zero era in realtà un'alta frequenza di due, potresti dirci qualcosa in più sul processo di generazione dei dati? Che tipo di servizio cercavano le persone e qual è l '"obiettivo finale" dell'analisi? Stai cercando di prevedere il numero (conteggio) delle visite, dato un insieme di caratteristiche (ovvero come misura della qualità del servizio)? Hai assolutamente bisogno di mantenere il risultato come conta allo scopo di rispondere alla tua domanda di ricerca, o potresti comprimere la variabile del risultato in un minor numero, ma di più grandi categorie?

— Marchese de Carabas,

2

Hai dei dati di conteggio. Cerca in questo sito la regressione di Poisson.

— kjetil b halvorsen,

10

La regressione lineare non è la scelta giusta per il tuo risultato, dato:

La variabile di risultato non è normalmente distribuita
La variabile di risultato è limitata nei valori che può assumere (contare i dati significa che i valori previsti non possono essere negativi)
Quella che sembra essere un'alta frequenza di casi con 0 visite

Modelli variabili dipendenti limitati per i dati di conteggio

La strategia di stima che puoi scegliere è dettata dalla "struttura" della tua variabile di risultato. Cioè, se la tua variabile di risultato è limitata nei valori che può assumere (cioè se è una variabile dipendente limitata ), devi scegliere un modello in cui i valori previsti rientreranno nell'intervallo possibile per il tuo risultato. Mentre a volte la regressione lineare è una buona approssimazione per variabili dipendenti limitate (ad esempio, nel caso di logit / probit binari), spesso non lo è. Inserisci modelli lineari generalizzati . Nel tuo caso, poiché la variabile di risultato sono i dati di conteggio, hai diverse opzioni:

Modello di Poisson
Modello binomiale negativo
Modello Zero Inflated Poisson (ZIP)
Modello binomiale negativo zero gonfiato (ZINB)

La scelta è di solito determinata empiricamente. Discuterò brevemente la scelta tra queste opzioni di seguito.

Poisson vs. Binomio negativo

$\theta$ $H_0:\theta=0$ $H_1: \theta≠0$ $\theta$

ZIP vs. ZINB

Una potenziale complicazione è l'inflazione zero, che potrebbe essere un problema qui. È qui che entrano in gioco i modelli a zero zero ZIP e ZINB. Utilizzando questi modelli, si assume che il processo che genera i valori zero sia separato dal processo che genera gli altri valori diversi da zero. Come in precedenza, ZINB è appropriato quando il risultato ha zero eccessivi ed è sovradisperso, mentre ZIP è appropriato quando il risultato ha zero eccessivi ma media condizionale = varianza condizionale. Per i modelli a inflazione zero, oltre alle covariate del modello che hai elencato sopra, dovrai pensare alle variabili che potrebbero aver generato gli zero in eccesso che hai visto nel risultato. Ancora una volta, ci sono test statistici forniti con l'output di questi modelli (a volte potresti doverli specificare quando esegui un comando) che ti permetteranno $\theta$

$\theta$ $H_0: \theta=0$ $H_1: \theta≠0$ $H_0: Excess$ $zeroes$ $is$ $not$ $a$ $result$ $of$ $a$ $separate$ $process$ $H_1:Excess$ $zeroes$ $is$ $a$ $result$ $of$ $a$ $separate$ $process$

$\theta$ $\theta$

Infine, non uso R, ma la pagina degli esempi di analisi dei dati di IDRE presso l'UCLA può guidarti nell'adattamento di questi modelli.

[Modifica di un altro utente senza sufficiente reputazione per commentare: questo documento spiega perché non dovresti usare il test Vuong per confrontare un modello a zero inflazione e fornisce alternative.

P. Wilson, "L'uso improprio del test Vuong per i modelli non nidificati per verificare l'inflazione zero". Economics Letters, 2015, vol. 127, edizione C, 51-53 ]

— Marchese de Carabas
fonte

la maggioranza è 2 ~ visite. Tutti i record sono più di 1 visita

— pxxd

Sto ottenendo trame qq simili sia per il glm di poisson che per la gamma, va bene?

— pxxd,

3

1. La variabile risultato non è normalmente distribuita non è di per sé un argomento valido contro la regressione lineare. Un insieme di ipotesi di regressione che garantisce buone proprietà dello stimatore (come coerenza e normalità asintotica) non include la normalità della variabile di risultato (e nemmeno la normalità degli errori).

— Richard Hardy,

2

Prova il modello lineare generalizzato con distribuzione gamma. Può approssimare bene la variabile dipendente in quanto è positiva ed è uguale a zero con x = 0. Ho usato R e GLM con un certo successo in un caso simile.

— Diego
fonte

V i s i t s d

$Visits~d$

1

No, credo che non dovresti usare il link del log ma piuttosto il link dell'identità. Ma prima controlla quanto bene la funzione gamma si adatta alla tua distribuzione.

— Diego,

0

Tutte le ipotesi statistiche riguardano gli errori di un modello. Se costruisci un modello semplice usando 6 serie di indicatori che riflettono il giorno della settimana ... inizierai a vedere una distribuzione degli errori molto più piacevole. Procedere con l'integrazione degli effetti mensili e degli effetti festivi (PRIMA, ATTIVATI E DOPO) e la distribuzione degli errori diventerà ancora più piacevole. Aggiungendo gli indicatori del giorno del mese, della settimana del mese e del fine settimana lungo, le cose diventeranno ancora più belle.

Guarda il metodo semplice per prevedere il numero di ospiti dati attuali e storici e /stats//search?q=user%3A3382+daily+data per una lettura più divertente.

— IrishStat
fonte

1

Questa risposta non sembra riguardare la domanda effettivamente posta. Potresti rendere esplicita la connessione?

— whuber

Ho preso il suo DVISITS per suggerire dati quotidiani ... se non è così, allora annullo la mia risposta. Se è veramente trasversale ... allora forse dovrebbe considerare la stratificazione dei dati in base alle principali classificazioni.

— IrishStat,