Perché i minimi quadrati ordinari ottengono risultati migliori della regressione di Poisson?


18

Sto cercando di adattarmi a una regressione per spiegare il numero di omicidi in ogni distretto di una città. Anche se so che i miei dati seguono una distribuzione di Poisson, ho provato ad adattare un OLS in questo modo:

log(y+1)=α+βX+ε

Poi, ho anche provato (ovviamente!) Una regressione di Poisson. Il problema è che ho risultati migliori nella regressione OLS: lo pseudo- è più alto (0,71 contro 0,57) e anche l'RMSE (3,8 contro 8,88. Standardizzato per avere la stessa unità).R2

Perché? È normale? Cosa c'è di sbagliato nell'utilizzo di OLS, indipendentemente dalla distribuzione dei dati?

modifica Seguendo i suggerimenti di kjetil b halvorsen e altri, ho adattato i dati attraverso due modelli: OLS e Negative Binomial GLM (NB). Ho iniziato con tutte le funzionalità che ho, quindi ho rimosso ricorsivamente una per una le funzionalità che non erano significative. OLS lo è

criomeun'reun'=α+βX+ε

con pesi = .un'reun'

summary(w <- lm(sqrt(num/area) ~  RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))

error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area

rmse(error2)
[1] 80.64783

L'NB prevede il numero di reati, con l'area del distretto compensata.

summary(m3 <- glm.nb(num ~  LUM5_single  + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places  + employed  + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))

error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")

rmse(error)
[1] 121.8714

Residui di OLS:

inserisci qui la descrizione dell'immagine

NB residui

inserisci qui la descrizione dell'immagine

Quindi l'RMSE è più basso nell'OLS ma sembra che i residui non siano così normali ....


Puoi pubblicare qualche dettaglio in più? Qual è la natura dei dati? cioè, qual è il conteggio delle variabili di risposta? quali sono le variabili esplicative?
kjetil b halvorsen,

@kjetilbhalvorsen la variabile dipendente è il numero di omicidi per distretto (112 distretti). Quelle indipendenti sono le caratteristiche strutturali della città (incroci stradali, PDI ecc.)
marcodena

2
Se stavo adattando questo modello usando una regressione di Poisson, includerei log (districtsize) come offset per tenere conto dei distretti che non erano tutti della dimensione ame. A meno che non lo siano.
mdewey,

1
Qual è la tua logica alla base del fatto che il confronto tra OLS e da una stima ML (e ), ti dà un'indicazione di quanto sia buono un certo modello? OLS, per costruzione, massimizza . La regressione del veleno è costruita in modo da massimizzare lo ? Non la penso così e non penso che questo confronto sia utile. p s e u d o - R 2 R M S E R 2 p s e u d o - R 2R2pSeudo-R2RMSER2pSeudo-R2
coffeinjunky,

1
Un'altra cosa da aggiungere - da ols sta dicendo la% di varianza spiegata in mentre il poisson psuedo sta cercando di dare un'indicazione della% della varianza di che è ha spiegato. Questo potrebbe anche spiegare la differenza z = log ( y + 1 ) R 2 yR2z=log(y+1)R2y
probabilityislogic

Risposte:


16

Sospetto che parte del problema potrebbe risiedere nella scelta della metrica delle prestazioni. Se si misura la prestazione del test utilizzando RMSE, addestrare il modello per ridurre al minimo l'MSE corrisponde al criterio del test, dando un suggerimento su ciò che è considerato importante. È possibile che se si misurano le prestazioni del test utilizzando la probabilità logaritmica negativa del set di test utilizzando una probabilità Poisson che il modello Poisson funzioni meglio (come prevedibile). Questo potrebbe essere un problema minore rispetto ad altri problemi sollevati, ma potrebbe essere un utile controllo di integrità.


1
+1. Se l'obiettivo dei PO fosse la previsione, potrebbe effettivamente esserci una logica per l'utilizzo di un modello OLS! Tuttavia, l'inferenza classica basata sugli errori derivante da OLS non può / non dovrebbe essere applicata nei GLM. Si potrebbero ispezionare i residui studentizzati o un'opzione migliore sarebbe il confronto dei modelli con l'AIC.
AdamO,

11

Innanzitutto, con tali dati mi aspetterei un'eccessiva dispersione (se non sai di cosa si tratta, vedi /stats//search?q=what+is+overdispersion%3F ).

Questo dovrebbe essere affrontato con un glm di Poisson, ma non è un problema con la normale regressione lineare. Come detto in un commento, con un po 'di glm che vuoi includere come offset, con una regressione lineare dovrai usare come variabile di risposta . Una possibile ragione della discrepanza dei risultati è che il problema è stato trattato in modo diverso nei due casi. Puoi pubblicare qui alcuni grafici di risultati, come i grafici residui, in modo da poter vedere cosa sta succedendo. Oppure potresti pubblicare i tuoi dati come tabella nel post originale .... potrebbe essere interessante dare un'occhiata.Nr. omicidilog(DistrictSize)Nr. omicidiDimensione del distretto

Un altro problema è la trasformazione che hai usato con la regressione lineare. La normale trasformazione di stabilizzazione della varianza utilizzata con i dati di conteggio è la radice quadrata, non il logaritmo.

Un altro problema è la scelta della trasformazione utilizzata con la regressione lineare. Quando si utilizza come risposta , sarà necessaria una regressione lineare ponderata. Supponendo come approssimazione , abbiamo Quindi dovresti usare la regressione lineare ponderata con come peso. Una semplice analisi mostra che, come approssimazione, gli stessi pesi sono appropriati con o come risposte.Yio/XioYio~poisson(λXio)

EYioXioαλVYioXioαXio-1
XioYio/Xiolog(Yio/Xio+1)
    EDIT

Per quanto riguarda la tua analisi aggiuntiva nel post, nota che rmse non può essere confrontato direttamente tra i due modelli, poiché vengono utilizzate risposte diverse! Per effettuare un confronto diretto, sarà necessario ritrasformare i valori previsti sulla scala originale. Quindi puoi calcolare rmse da solo e vedere. Si noti tuttavia che le previsioni ottenute dopo la trasformazione posteriore possono essere distorte, a causa delle non linearità. Pertanto, alcune modifiche alle previsioni ritrattate potrebbero renderle più utili. In alcuni casi, questo potrebbe essere calcolato teoricamente, altrimenti potresti semplicemente usare un bootstrap.


Ho montato i modelli come mi hai suggerito, anche se non capivo davvero la risonanza dietro l'OLS ponderato. Cosa pensi?
marcodena,

6

Ci sono molte scelte di pseudo di. Molti di loro sono molto imperfetti. In generale, di solito non c'è motivo per cui l' prodotto da OLS avrà un valore comparabile a un dato pseudo ; piuttosto, gli pseudo vengono in genere utilizzati per confrontare i modelli della stessa famiglia distributiva.R2R2R2R2


2

È vero che i tuoi dati non sono normalmente distribuiti (il che presumo sia il motivo per cui hai anche eseguito una regressione di Poisson) ma probabilmente i tuoi dati non sono nemmeno una distribuzione di Poisson. La distribuzione di Poisson presuppone che la media e la varianza siano uguali, il che probabilmente non è il caso (come menzionato in altre risposte - è possibile catturare questa discrepanza e incorporarla nel modello). Poiché i tuoi dati non sono davvero perfetti per entrambi i modelli, ha senso che OLS possa funzionare meglio.

Un'altra cosa da notare è che le stime ordinarie dei minimi quadrati sono robuste rispetto alla non normalità, il che potrebbe essere il motivo per cui stai ottenendo un modello ragionevole. Il teorema di Gauss-Markov ci dice che le stime dei coefficienti OLS sono i migliori (in termini di errore al quadrato medio) stimatori non lineari imparziali (BLU) secondo i seguenti presupposti,

  • Gli errori hanno una media di zero
  • Le osservazioni non sono correlate
  • Gli errori hanno varianza costante

Non vi è alcuna ipotesi di normalità qui, quindi i tuoi dati possono benissimo essere ragionevoli per questo modello! Detto questo, esaminerei un modello di Poisson con un parametro di dispersione eccessiva cotto all'interno e dovresti ottenere risultati migliori.


@TynnaDoStat grazie! Ho montato due modelli ora, uno con parametro di dispersione. Cosa pensi?
marcodena,

2
La varianza = media per una distribuzione di Poisson è spesso invocata come ipotesi problematica per la regressione di Poisson , ma il punto non è così difficile come è implicito qui. Nonostante il nome, l'idea principale della regressione di Poisson è quella di una funzione link log; le ipotesi sulla distribuzione condizionale non sono così importanti. Ciò che è probabile che se le assunzioni non valgono tutte è principalmente che gli errori standard sono disattivati ​​a meno che non ti adegui, ma l'adattamento spesso avrà senso.
Nick Cox,

2
In effetti la regressione di Poisson può avere senso per le risposte misurate non negative in cui varianza e media non hanno nemmeno le stesse dimensioni. Vedi ad esempio blog.stata.com/2011/08/22/…
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.