Sto cercando di adattarmi a una regressione per spiegare il numero di omicidi in ogni distretto di una città. Anche se so che i miei dati seguono una distribuzione di Poisson, ho provato ad adattare un OLS in questo modo:
Poi, ho anche provato (ovviamente!) Una regressione di Poisson. Il problema è che ho risultati migliori nella regressione OLS: lo pseudo- è più alto (0,71 contro 0,57) e anche l'RMSE (3,8 contro 8,88. Standardizzato per avere la stessa unità).
Perché? È normale? Cosa c'è di sbagliato nell'utilizzo di OLS, indipendentemente dalla distribuzione dei dati?
modifica Seguendo i suggerimenti di kjetil b halvorsen e altri, ho adattato i dati attraverso due modelli: OLS e Negative Binomial GLM (NB). Ho iniziato con tutte le funzionalità che ho, quindi ho rimosso ricorsivamente una per una le funzionalità che non erano significative. OLS lo è
con pesi = .
summary(w <- lm(sqrt(num/area) ~ RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))
error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area
rmse(error2)
[1] 80.64783
L'NB prevede il numero di reati, con l'area del distretto compensata.
summary(m3 <- glm.nb(num ~ LUM5_single + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places + employed + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))
error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")
rmse(error)
[1] 121.8714
Residui di OLS:
NB residui
Quindi l'RMSE è più basso nell'OLS ma sembra che i residui non siano così normali ....