L'assunzione di errori normali implica che anche Y è normale?


12

A meno che non mi sbagli, in un modello lineare, si presume che la distribuzione della risposta abbia una componente sistematica e una componente casuale. Il termine di errore acquisisce il componente casuale. Pertanto, se assumiamo che il termine di errore sia normalmente distribuito, ciò non implica che anche la risposta sia normalmente distribuita? Penso di sì, ma poi dichiarazioni come quella qui sotto sembrano piuttosto confuse:

E puoi vedere chiaramente che l'unica ipotesi di "normalità" in questo modello è che i residui (o "errori" ) dovrebbero essere normalmente distribuiti. Non si presuppone la distribuzione del predittore o della variabile di risposta .x i y iϵixiyi

Fonte: predittori, risposte e residui: cosa deve essere distribuito normalmente?


7
Se le sono non stocastiche, la normalità di implica la normalità della variabile dipendente. Per le variabili indipendenti stocastiche ciò non vale in generale, quindi dipende dalla distribuzione delle variabili indipendenti. ϵxϵ

Risposte:


19

Il modello OLS standard è con per una fissa .ε N ( 0 , σ 2 I n )Y=Xβ+εεN(0,σ2In) XRn×p

Ciò significa in effetti che , sebbene questa sia una conseguenza della nostra ipotesi sulla distribuzione di , piuttosto che essere effettivamente il presupposto. Anche tenere a mente che sto parlando della distribuzione condizionata di , non la distribuzione marginale di . Mi sto concentrando sulla distribuzione condizionale perché penso che sia quello che stai chiedendo davvero.ε Y YY|{X,β,σ2}N(Xβ,σ2In)εYY

Penso che la parte che confonde sia che ciò non significa che un istogramma di sembrerà normale. Stiamo dicendo che l'intero vettore è un singolo disegno da una distribuzione normale multivariata in cui ogni elemento ha una media potenzialmente diversa . Questo non è lo stesso di essere un campione normale iid. Gli errori sono in realtà un campione iid, quindi un istogramma di questi sembrerebbe normale (ed è per questo che facciamo un diagramma QQ dei residui, non la risposta).Y E ( Y i | X i ) = X T i β εYYE(Yi|Xi)=XiTβε

Ecco un esempio: supponiamo di misurare l'altezza per un campione di 6 ° e 12 ° elementare. Il nostro modello è con . Se osserviamo un istogramma di probabilmente vedremo una distribuzione bimodale, con un picco per i selezionatori di 6 ° e un picco per i selezionatori di 12 °, ma ciò non rappresenta una violazione delle nostre ipotesi.H i = β 0 + β 1Hε iiid N ( 0 , σ 2 ) H iHi=β0+β1I(12th grader)+εiεi iid N(0,σ2)Hi


Qualcuno potrebbe chiarire la notazione ? σ2In
Snoram,

Significa la matrice di identità moltiplicata per uno scalare . σ 2n×nσ2
jld

La matrice di identità moltiplica la varianza. n×n
Sycorax dice di reintegrare Monica il

11

Pertanto, se assumiamo che il termine di errore sia normalmente distribuito, ciò non implica che anche la risposta sia normalmente distribuita?

Nemmeno da remoto. Il modo in cui ricordo questo è che i residui sono normalmente condizionati dalla parte deterministica del modello . Ecco una dimostrazione di come appare in pratica.

Comincio generando casualmente alcuni dati. Quindi definisco un risultato che è una funzione lineare dei predittori e stima un modello.

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

Diamo un'occhiata a come appaiono questi residui. Ho il sospetto che dovrebbero essere normalmente distribuiti, poiché il risultato yha aggiunto il normale rumore ad esso aggiunto. E in effetti è così.

inserisci qui la descrizione dell'immagine

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

Controllando la distribuzione di y, tuttavia, possiamo vedere che non è assolutamente normale! Ho sovrapposto la funzione di densità con la stessa media e varianza di y, ma è ovviamente una misura terribile!

Densità di y

La ragione per cui ciò è accaduto in questo caso è che i dati di input non sono nemmeno lontanamente normali. Nulla di questo modello di regressione richiede la normalità se non nei residui, non nella variabile indipendente e non nella variabile dipendente.

Negazione di x


8

No, non lo fa. Ad esempio, supponiamo di avere un modello che prevede il peso degli atleti olimpici. Mentre il peso potrebbe essere normalmente distribuito tra gli atleti in ogni sport, non sarà tra tutti gli atleti - potrebbe anche non essere unimodale.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.