Assunzione della normalità nella regressione lineare


11

Come ipotesi di regressione lineare, la normalità della distribuzione dell'errore è talvolta erroneamente "estesa" o interpretata come la necessità della normalità di y o x.

È possibile costruire uno scenario / set di dati in cui X e Y non sono normali ma il termine di errore è e quindi le stime di regressione lineare ottenute sono valide?


5
Esempio di prova: X ha una distribuzione di Bernoulli (ovvero, prendendo i valori 0 o 1); Y = X + N (0, 0,1). Né X né Y sono normalmente distribuiti da soli, ma regredire Y su X funziona ancora.
Hong Ooi,

Immagino che stai pensando alla distribuzione dei residui, non alla distribuzione delle variabili.
Tashuhka,


Risposte:


16

Espandendo il commento di Hong Oois con un'immagine. Ecco un'immagine di un set di dati in cui nessuno dei margini è normalmente distribuito ma i residui lo sono ancora, quindi i presupposti della regressione lineare sono ancora validi:

inserisci qui la descrizione dell'immagine

L'immagine è stata generata dal seguente codice R:

library(psych)
x <- rbinom(100, 1, 0.3)
y <- rnorm(length(x), 5 + x * 5, 1)

scatter.hist(x, y, correl=F, density=F, ellipse=F, xlab="x", ylab="y")
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.