OLS vs. Poisson GLM con collegamento identità

La mia domanda rivela la mia scarsa comprensione della regressione di Poisson e dei GLM in generale. Ecco alcuni dati falsi per illustrare la mia domanda:

### some fake data
x=c(1:14)
y=c(0,  1,  2,  3,  1,  4,  9, 18, 23, 31, 20, 25, 37, 45)

Alcune funzioni personalizzate per restituire psuedo-R2:

### functions of pseudo-R2

psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)}

predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)}

Adatto per quattro modelli: OLS, GLM gaussiano con collegamento identità, GLM Poisson con collegamento log, GLM Poisson con collegamento identità

#### OLS MODEL
mdl.ols=lm(y~x)
summary(mdl.ols)
pred.ols = predict(mdl.ols)

summary(mdl.ols)$r.squared
predR2(y, pred.ols)

#### GLM MODEL, family=gaussian(link="identity")
mdl.guass <- glm(y~x, family=gaussian(link="identity"), maxit=500)
summary(mdl.guass)
pred.guass = predict(mdl.guass)

psuR2(mdl.guass$null.deviance, mdl.guass$deviance)
predR2(y, pred.guass)

#### GLM MODEL, family=possion (canonical link)
mdl.poi_log <- glm(y~x, family=poisson(link="log"), maxit=500)
summary(mdl.poi_log)
pred.poi_log= exp(predict(mdl.poi_log))  #transform

psuR2(mdl.poi_log$null.deviance, mdl.poi_log$deviance)
predR2(y, pred.poi_log)

#### GLM MODEL, family=poisson((link="identity")
mdl.poi_id <- glm(y~x, family=poisson(link="identity"), start=c(0.5,0.5), maxit=500)
summary(mdl.poi_id)
pred.poi_id = predict(mdl.poi_id)

psuR2(mdl.poi_id$null.deviance, mdl.poi_id$deviance)
predR2(y, pred.poi_id)

Infine traccia le previsioni:

#### Plot the Fit
plot(x, y) 
lines(x, pred.ols)
lines(x, pred.guass, col="green")
lines(x,pred.poi_log, col="red")
lines(x,pred.poi_id, col="blue")

Ho 2 domande:

Sembra che i coefficienti e le previsioni che escono da OLS e Gaussian GLM con collegamento identitario siano esattamente gli stessi. È sempre vero?
Sono molto sorpreso che le stime e le previsioni OLS siano molto diverse dal GLM di Poisson con collegamento di identità . Ho pensato che entrambi i metodi avrebbero provato a stimare E (Y | X). Che aspetto ha la funzione di verosimiglianza quando utilizzo il collegamento identità per Poisson?

generalized-linear-model poisson-distribution

— William Chiu
fonte

Correlati: stats.stackexchange.com/questions/142338/…

— kjetil b halvorsen

Se si desidera eseguire il minor numero di quadrati per approssimare il modello di Poisson con collegamento di identità, è possibile inserire anche un modello di minimi quadrati ponderato, mdl.wols = lm (y ~ x, pesi = 1 / log (y + 1.00000000001)) in cui il registro (y + 1.00000000001) viene quindi preso come una prima stima della varianza (sqrt (y + 1E-10)) funziona anche - le stime di tali modelli sarebbero molto simili a quelle del GLM di Poisson con collegamento di identità ...

— Tom Wenseleers il

Sì, sono la stessa cosa. MLE per un gaussiano è il minimo dei quadrati, quindi quando fai un GLM gaussiano con collegamento di identità, stai facendo OLS.
a) " Ho pensato che entrambi i metodi avrebbero provato a stimare E (Y | X) "

In effetti lo fanno, ma il modo in cui l'aspettativa condizionale è stimata in funzione dei dati non è lo stesso. Anche se ignoriamo la distribuzione (e quindi il modo in cui i dati entrano nella probabilità) e pensiamo al GLM solo in termini di media e varianza (come se fosse solo una regressione ponderata), la varianza di un Poisson aumenta con la media, quindi i pesi relativi sulle osservazioni sarebbero diversi.

b) " Che aspetto ha la funzione di verosimiglianza quando utilizzo il collegamento di identità per Poisson? "

$\mathcal{L}(\beta_0,\beta_1) = \prod_i e^{-\lambda_i}\lambda_i^{y_i}/y_i!$

$\qquad\qquad\,=\exp(\sum_i -\lambda_i+{y_i}\log(\lambda_i)-\log{(y_i!)}\,)\quad$ dove $\lambda_i=\beta_0+\beta_1 x_i$

$\qquad\qquad\,=\exp(\sum_i -(\beta_0+\beta_1 x_i)+{y_i}\log(\beta_0+\beta_1 x_i)-\log{(y_i!)}\,)$

— Glen_b -Restate Monica
fonte

Un'elaborazione sul secondo punto di Glen_b. Una storia che mi sono raccontata, che ho trovato abbastanza chiarificante, è che quando la media condizionale stimata aumenta nel modello di poisson, il modello diventa più tollerante nei confronti dei valori dei dati lontano dalla media condizionale. In contrasto con il modello lineare diritto, che è uniformemente tollerante, qualunque sia la media condizionale stimata.

— Matthew Drury,

@Glen_b, posso chiederti di chiarire ciò che hai detto: "quindi come i dati entrano nella probabilità". Stai dicendo che la probabilità di adattamento del modello è diversa tra un OLS e POisson (link = identità), se montato con MLE ?. Ad esempio, se si adatta OLS utilizzando MLE, si utilizza la funzione di verosimiglianza per la distribuzione normale per calcolare la verosimiglianza dell'adattamento, rispetto alla funzione di verosimiglianza dalla distribuzione di poisson in quest'ultimo caso?

— Alex,

@Alex Right; OLS è ML alla probabilità gaussiana e gaussiana non è la probabilità di Poisson

— Glen_b -Reststate Monica,