Perché la regressione lineare ha ipotesi sul modello lineare residuo ma generalizzato ha ipotesi sulla risposta?


14

Perché la regressione lineare e il modello generalizzato hanno ipotesi incoerenti?

  • Nella regressione lineare, assumiamo che il residuo derivi dalla forma gaussiana
  • In altre regressioni (regressione logistica, regressione del veleno), assumiamo che la risposta provenga da una certa distribuzione (binomiale, povertà ecc.).

Perché a volte assumono il tempo residuo e altri assumono in risposta? È perché vogliamo derivare proprietà diverse?


EDIT: Penso che Mark999 mostra che due forme sono uguali. Tuttavia, ho un ulteriore dubbio su iid:

Altro mio quesiton, ci sono ipotesi sulla regressione logistica? mostra che il modello lineare generalizzato non ha ipotesi (indipendente ma non identico)

È vero che per la regressione lineare, se poniamo ipotesi sul residuo , avremo iid, ma se poniamo ipotesi sulla risposta , avremo campioni indipendenti ma non identici (diversi Gaussiani con differenti )?μ


Risposte:


12

La regressione lineare semplice con errori gaussiani è un attributo molto utile che non si generalizza ai modelli lineari generalizzati.

Nei modelli lineari generalizzati, la risposta segue una certa distribuzione data la media . La regressione lineare segue questo modello; se abbiamo

yi=β0+β1xi+ϵi

con ϵiN(0,σ)

allora abbiamo anche

yiN(β0+β1xi,σ)

Va bene, quindi la risposta segue la distribuzione data per i modelli lineari generalizzati, ma per la regressione lineare abbiamo anche che i residui seguono una distribuzione gaussiana. Perché si sottolinea che i residui sono normali quando questa non è la regola generalizzata? Bene, perché è la regola molto più utile. La cosa bella nel pensare alla normalità dei residui è che è molto più facile da esaminare. Se sottraiamo le medie stimate, tutti i residui dovrebbero avere all'incirca la stessa varianza e all'incirca la stessa media (0) e saranno approssimativamente distribuiti normalmente (nota: dico "approssimativamente" perché se non abbiamo stime perfette della parametri di regressione, che ovviamente non lo facciamo, la varianza delle stime di ϵiavrà varianze diverse in base agli intervalli di . Ma si spera che ci sia abbastanza precisione nelle stime che questo è ignorabile!).x

D'altra parte, guardando il non aggiustato s', non posso davvero dire se sono normali, se tutti hanno mezzi differenti. Ad esempio, considera il seguente modello:yi

yi=0+2×xi+ϵi

con e x iBernoulli ( p = 0,5 )ϵiN(0,0.2)xiBernoulli(p=0.5)

Poi il yi sarà altamente bimodale, ma non violare i presupposti della regressione lineare! D'altra parte, i residui seguiranno una distribuzione approssimativamente normale.

Ecco un po 'di Rcodice per illustrare.

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

istogrammi


yi=1+2×xi+ϵi

3
@ hxd1011: sì, questa è la differenza tra la distribuzione marginale (chiaramente non normale) e la distribuzione condizionale data x (sappiamo che è normale da quando l'abbiamo simulato!). Non pensare alla differenza tra distribuzioni condizionali e marginali è un errore estremamente comune.
Cliff AB,

14

Le ipotesi non sono incoerenti. Se, perio=1,...,n, supponi

Yio=β0+β1Xio1+...+βKXioK+εio,
con gli errori εio essendo normalmente distribuito con media 0 e varianza σ2, è lo stesso che supporre che sia condizionato Xi1,,Xik, the response Yi is normally distributed with mean β0+β1Xi1++βkXik and variance σ2.

This is because having conditioned on Xi1,,Xik, we treat β0+β1Xi1++βkXik as being constant.

The usual multiple linear regression model with normal errors is a generalised linear model with normal response and identity link.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.