Che cosa significa avere "varianza costante" in un modello di regressione lineare?


53

Che cosa significa avere "varianza costante" nel termine di errore? A mio avviso, abbiamo un dato con una variabile dipendente e una variabile indipendente. La varianza costante è uno dei presupposti della regressione lineare. Mi chiedo cosa significhi omoscedasticità. Poiché anche se avessi 500 righe, avrei un singolo valore di varianza che è ovviamente costante. Con quale variabile devo confrontare la varianza?

Risposte:


34

Ciò significa che quando si traccia il singolo errore rispetto al valore previsto, la varianza del valore previsto dell'errore dovrebbe essere costante. Vedi le frecce rosse nella figura sotto, la lunghezza delle linee rosse (un proxy della sua varianza) sono le stesse.

inserisci qui la descrizione dell'immagine


1
Ok capito.!! Ma poiché si tratta di un presupposto, non è necessario convalidare il presupposto prima di eseguire il modello. E perché abbiamo bisogno di questo presupposto
Mukul,

2
Alcuni presupposti possono essere testati solo dopo l'esecuzione del modello. Il calcolo di un modello è solo matematica e non è uguale all'interpretazione di un modello.
Giovanni

6
La gamma non equivale alla varianza Penguin Knight, quindi potresti voler aggiornare qui la tua formulazione.
Giovanni

4
Se la tua ipotesi di varianza è sbagliata, di solito significa che gli errori standard sono sbagliati e qualsiasi test di ipotesi potrebbe trarre le conclusioni sbagliate. (Un altro Giovanni)
Giovanni

4
Io differisco leggermente. Non direi che l'eteroscedasticità significa necessariamente che gli errori standard dei tuoi beta sono sbagliati, ma piuttosto che lo stimatore OLS non è più lo stimatore imparziale più efficiente. Cioè, potresti ottenere più potenza / precisione se o avessi una varianza costante (forse a causa di una trasformazione di Y), o se prendessi accuratamente in considerazione la non costanza (forse tramite lo stimatore dei minimi quadrati generalizzato).
gung - Ripristina Monica

58


Y=β0+β1X+εwhere εN(0,σε2)
β0+β1Xσε2

σε2XYεβ0, β1, σε2)Xσε2

Y=β0+β1X+εwhere εN(0,f(X)) where f(X)=exp(γ0+γ1X)and γ10
Xf(X) X

X. Tuttavia, tendo a pensare che guardare le trame sia il migliore. @Penquin_Knight ha fatto un buon lavoro nel mostrare quale sia la varianza costante tracciando i residui di un modello in cui l'omoscedasticità si ottiene rispetto ai valori adattati. L'eteroscedasticità può anche essere rilevata in un diagramma dei dati grezzi o in un diagramma a scala (chiamato anche livello di diffusione). R rappresenta convenientemente quest'ultimo con una chiamata a plot.lm(model, which=2); è la radice quadrata dei valori assoluti dei residui rispetto ai valori adattati, con una curva di basso valore utile sovrapposta. Vuoi che la vestibilità lowess sia piatta, non inclinata.

Considera i grafici seguenti, che confrontano il modo in cui i dati omoscedastici e eteroscedastici potrebbero apparire in questi tre diversi tipi di figure. Notare la forma dell'imbuto per i due grafici eteroscedastici superiori e la linea di basso profilo inclinata verso l'alto nell'ultima.

inserisci qui la descrizione dell'immagine

Per completezza, ecco il codice che ho usato per generare questi dati:

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2            ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)

1
grazie è molto utile. Puoi anche spiegare perché abbiamo bisogno di questo assunto in una lingua laica
Mukul

5
Prego, @Mukul. L'ipotesi di omoscedasticità (varianza costante) è necessaria per rendere lo stimatore OLS (ovvero, il software di procedura predefinito utilizza per stimare i beta) la procedura di stima che produrrà distribuzioni campionarie di beta che presentano gli errori standard più stretti di tutte le procedure di stima che producono distribuzioni campionarie centrate sul valore reale. IE, è necessario che lo stimatore OLS sia lo stimatore imparziale varianza minima .
gung - Ripristina Monica

5
p(p(1p))/n)

2
@gung nel tuo commento hai messo il corsivo su tutte le parole dello stimatore imparziale varianza minima frase. Capisco che con l'eteroscedasticità lo stimatore diventerà meno efficiente (più varianza), ma diventerà anche di parte?
user1205901 - Ripristina Monica

5
@ user1205901, rimane imparziale.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.