Effetto della commutazione di risposta e variabile esplicativa nella semplice regressione lineare


48

Diciamo che esista una relazione "vera" tra ed tali che , dove e sono costanti e è rumore normale iid. Quando generi casualmente i dati da quel codice R: e poi inserisco un modello come , ovviamente ottengo stime ragionevolmente buone per e .x y = a x + b + ϵ a b ϵ a byxy=ax+b+ϵabϵx <- 1:100; y <- ax + b + rnorm(length(x))y ~ xab

Se cambio il ruolo delle variabili come in (x ~ y), tuttavia, e quindi riscrivo il risultato affinché sia una funzione di , la pendenza risultante è sempre più ripida (o più negativa o più positiva) di quella stimata dalla regressione. Sto cercando di capire esattamente perché sia ​​e lo apprezzerei se qualcuno potesse darmi un'intuizione su cosa sta succedendo lì.xyxy ~ x


1
Questo non è vero in generale. Forse lo stai vedendo nei tuoi dati. Incolla questo codice: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); in R più volte e scoprirai che va in entrambe le direzioni.
Macro

È un po 'diverso da quello che stavo descrivendo. Nel tuo esempio y non era affatto una funzione di x, quindi non c'è davvero alcuna "pendenza" (la "a" nel mio esempio).
Greg Aponte,

lm (y ~ x) si adatta al modello con i minimi quadrati (equivalente alla stima ML quando gli errori sono normali). C'è una pendenza. y=β0+β1x+ε
Macro

2
Alla tua domanda viene posta una risposta (sorta di) su stats.stackexchange.com/questions/13126 e stats.stackexchange.com/questions/18434 . Tuttavia, credo che nessuno abbia ancora contribuito con una spiegazione semplice e chiara delle relazioni tra (a) regressione di vs , (b) regressione di vs , (c) analisi della correlazione di e , (d) regressione degli errori nelle variabili di e e (e) adattamento di una distribuzione normale bivariata a . Questo sarebbe un buon posto per una tale esposizione :-). X X Y X Y X Y ( X , Y )YXXYXYXY(X,Y)
whuber

2
Ovviamente Macro è corretta: poiché xey svolgono ruoli equivalenti nella domanda, quale pendenza è più estrema è una questione di fortuna. Tuttavia, la geometria suggerisce (erroneamente) che quando invertiamo xey nella regressione, dovremmo ottenere il recipocal della pendenza originale. Ciò non accade mai tranne quando xey sono linearmente dipendenti. Questa domanda può essere interpretata nel chiedere perché.
whuber

Risposte:


23

Dato punti di dati , nel piano, disegniamo una linea retta . Se prevediamo come valore di , l' errore è , l' errore al quadrato è e l' errore al quadrato totale . Noi chiediamo( x i , y i ) , i = 1 , 2 , ... n y = a x + b una x i + b y i y i ( y i - y i ) = ( y i - un x i - b ) ( y i - a x i - bn(xi,yi),i=1,2,ny=ax+baxi+by^iyi(yiy^i)=(yiaxib)n i = 1 ( y i - a x i - b ) 2(yiaxib)2 i=1n(yiaxib)2

Quale scelta di e riduce al minimo ?b S = n i = 1 ( y i - a x i - b ) 2abS=i=1n(yiaxib)2

Poiché è la distanza verticale di dalla linea retta, chiediamo la linea in modo tale che la somma dei quadrati delle distanze verticali dei punti dalla linea sia piccola quanto possibile. Ora è una funzione quadratica sia e e raggiunge il suo valore minimo quando e sono tali che Dalla seconda equazione, otteniamo dove ( x i , y i ) S a b a b S(yiaxib)(xi,yi)Sabab b=1

Sa=2i=1n(yiaxib)(xi)=0Sb=2i=1n(yiaxib)(1)=0
μy=1
b=1ni=1n(yiaxi)=μyaμx
yixia=( 1μy=1ni=1nyi, μx=1ni=1nxi sono la media aritmetica valori rispettivamente di e di . Sostituendo nella prima equazione, otteniamo Pertanto, la linea che minimizza può essere espressa come e il valore minimo di è yixiSy=ax+b=μy+((1
a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2.
SSSmin=[(1
y=ax+b=μy+((1ni=1nxiyi)μxμy(1ni=1nxi2)μx2)(xμx),
S
Smin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nxi2)μx2.

Se si scambiano i ruoli di ed , tracciare una linea , e chiedere i valori di e che minimizzano cioè vogliamo la linea in modo tale che la somma dei quadrati delle distanze orizzontali dei punti dal la linea è più piccola possibile, quindi otteniamoxyx=a^y+b^a^b^

T=i=1n(xia^yib^)2,

x=a^y+b^=μx+((1ni=1nxiyi)μxμy(1ni=1nyi2)μy2)(yμy)
e il valore minimo di è T
Tmin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nyi2)μy2.

Nota che entrambe le linee passano attraverso il punto ma le pendenze sono sono diversi in generale. In effetti, come sottolinea @whuber in un commento, le pendenze sono le stesse quando tutti i punti trovano sulla stessa linea retta. Per vedere questo, nota che (μx,μy)

a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2,  a^1=(1ni=1nyi2)μy2(1ni=1nxiyi)μxμy
(xi,yi)
a^1a=Smin(1ni=1nxiyi)μxμy=0Smin=0yi=axi+b,i=1,2,,n.

Grazie! abs (correlazione) <1 spiega perché la pendenza fosse sistematicamente più ripida nel caso invertito.
Greg Aponte,

(+1) ma ho aggiunto una risposta con solo un'illustrazione di quello che hai appena detto, dato che ho una mente geometrica :)
Elvis

Risposta in classe (+1)
Digio,

39

Giusto per illustrare la risposta di Dilip: nelle seguenti immagini,

  • i punti neri sono punti dati;
  • a sinistra, la linea nera è la linea di regressione ottenuta da y ~ x, che minimizza i quadrati della lunghezza dei segmenti rossi;
  • a destra, la linea nera è la linea di regressione ottenuta da x ~ y, che minimizza i quadrati della lunghezza dei segmenti rossi.

linee di regressione

Modifica (regressione dei minimi rettangoli)

Se non esiste un modo naturale di scegliere una "risposta" e una "covariata", ma piuttosto le due variabili sono interdipendenti, si potrebbe desiderare di conservare un ruolo simmetrico per e ; in questo caso puoi usare "regressione dei minimi rettangoli".yx

  • scrivi , come al solito;Y=aX+b+ϵ
  • denota e le stime di condizionate a e di condizionate a ;y^i=axi+bx^i=1a(yib)YiX=xiXiY=yi
  • minimizza, che porta a i|xix^i||yiy^i|
    y^=sign(cov(x,y))σ^yσ^x(xx¯)+y¯.

Ecco un'illustrazione con gli stessi punti dati, per ogni punto viene calcolato un "rettangolo" come prodotto della lunghezza di due segmenti rossi e la somma dei rettangoli viene minimizzata. Non so molto sulle proprietà di questa regressione e non trovo molto con Google.

minimi rettangoli


14
Alcune note: ( 1 ) A meno che non mi sbagli, sembra che la "regressione dei minimi rettangoli" sia equivalente alla soluzione ottenuta prendendo il primo componente principale sulla matrice dopo il centraggio e riscalando per avere una varianza unitaria e quindi sostituirsi. (cont.)X=(y,x)
cardinale

14
(cont.) ( 2 ) Visto così, è facile vedere che questo "almeno rettangoli regressione" è equivalente ad una forma di ortogonale (o totale) minimi quadrati e, quindi, ( 3 ) Un caso particolare di regressione Deming sulla i vettori centrati e riscalati che assumono . I minimi quadrati ortogonali possono essere considerati come "regressione dei minimi cerchi". δ=1
cardinale il

2
@cardinal Commenti molto interessanti! (+1) Credo che l'asse maggiore (minimizzare le distanze perpendicolari tra la linea reg. E tutti i punti, alla PCA) o la regressione dell'asse maggiore ridotta , o la regressione di tipo II come esemplificato nel pacchetto lmodel2 R di P Legendre, siano rilevanti anche qui poiché tali tecniche vengono utilizzate quando è difficile dire quale ruolo (risposta o predittore) svolge ogni variabile o quando vogliamo tenere conto degli errori di misurazione.
chl

1
@chl: (+1) Sì, credo che tu abbia ragione e la pagina di Wikipedia sui minimi quadrati totali elenca molti altri nomi per la stessa procedura, non tutti con cui ho familiarità. Sembra risalire almeno a R. Frisch, Analisi statistica della confluenza per mezzo di sistemi di regressione completi , Universitetets Økonomiske Instituut, 1934, dove era chiamata regressione diagonale .
cardinale

3
@cardinal Avrei dovuto essere più attento durante la lettura della voce di Wikipedia ... Per riferimento futuro, ecco una foto tratta da Biostatistical Design and Analysis Using R , di M. Logan (Wiley, 2010; Fig. 8.4, p. 174) , che riassume i diversi approcci, proprio come le belle illustrazioni di Elvis.
chl

13

Solo una breve nota sul perché vedi la pendenza più piccola per una regressione. Entrambe le pendenze dipendono tre numeri: deviazioni standard di ed ( e ), e la correlazione tra ed ( ). La regressione con come risposta ha la pendenza e la regressione con come risposta ha la pendenza , quindi il il rapporto tra la prima pendenza e il reciproco della seconda è uguale a .xysxsyxyryrsysxxrsxsyr21

Quindi maggiore è la percentuale di varianza spiegata, più vicine sono le pendenze ottenute da ciascun caso. Si noti che la proporzione di varianza spiegata è simmetrica e uguale alla correlazione quadrata nella regressione lineare semplice.


1

Un modo semplice per vedere questo è notare che, se per il modello vero , si eseguono due regressioni:y=α+βx+ϵ

  • y=ayx+byxx
  • x=axy+bxyy

Quindi abbiamo, usando :byx=cov(x,y)var(x)=cov(x,y)var(y)var(y)var(x)

byx=bxyvar(y)var(x)

Quindi, se si ottiene una pendenza più ripida o meno dipende solo dal rapporto . Questo rapporto è uguale, in base al modello vero assunto:var(y)var(x)

var(y)var(x)=β2var(x)+var(ϵ)var(x)

Collegamento con altre risposte

Puoi collegare questo risultato con le risposte di altri, che hanno detto che quando , dovrebbe essere il reciproco. Infatti, , e anche, (nessun errore di stima), quindi:R2=1R2=1var(ϵ)=0byx=β

R2=1byx=bxyβ2var(x)+0var(x)=bxyβ2

Quindibxy=1/β


0

Diventa interessante quando c'è anche del rumore sui tuoi input (cosa che potremmo sostenere è sempre il caso, nessun comando o osservazione è mai perfetto).

Ho costruito alcune simulazioni per osservare il fenomeno, basato su una semplice relazione lineare , con rumore gaussiano sia su x che su y. Ho generato le osservazioni come segue (codice Python):x=y

x = np.linspace(0, 1, n)
y = x

x_o = x + np.random.normal(0, 0.2, n)
y_o = y + np.random.normal(0, 0.2, n)

Vedi i diversi risultati (odr qui è la regressione della distanza ortogonale , ovvero la stessa regressione dei rettangoli minimi):

inserisci qui la descrizione dell'immagine

Tutto il codice è lì dentro:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd


0

La linea di regressione non è (sempre) uguale alla relazione vera

Potresti avere una relazione causale "vera" come

y=a+bx+ϵ

ma adattava le linee di regressione y ~ xo x ~ ynon significa lo stesso di quella relazione causale (anche quando in pratica l'espressione per una delle linee di regressione può coincidere con l'espressione per la relazione 'vera' causale)


Rapporto più preciso tra le piste

Per due regressioni lineari semplici commutate:

Y=a1+b1XX=a2+b2Y

puoi mettere in relazione le piste come segue:

b1=ρ21b21b2

Quindi le pendenze non sono reciprocamente inverse.


Intuizione

Il motivo è questo

  • Le linee e le correlazioni di regressione non corrispondono necessariamente a una a una relazione causale.
  • Le linee di regressione si riferiscono più direttamente a una probabilità condizionale o alla migliore previsione.

Potete immaginare che la probabilità condizionale si riferisca alla forza della relazione. Le linee di regressione riflettono ciò e le pendenze delle linee possono essere entrambe superficiali quando la forza della relazione è piccola o entrambe ripide quando la forza della relazione è forte. Le pendenze non sono semplicemente inverse.

Esempio

Se due variabili e in relazione tra loro da alcuni (causale) relazione lineare Poi si può immaginare che sarebbe non essere buono per tutto invertire tale relazione nel caso in cui si desidera esprimere sulla base di un dato valore di .XY

Y=a little bit of X+ a lot of error
XY

Invece di

X=a lot of Y+ a little of error

sarebbe meglio usare anche

X=a little bit of Y+ a lot of error

Vedi le seguenti distribuzioni di esempio con le rispettive linee di regressione. Le distribuzioni sono normali multivariate con eΣ11Σ22=1Σ12=Σ21=ρ

esempio

I valori attesi condizionati (cosa otterresti in una regressione lineare) sono

E(Y|X)=ρXE(X|Y)=ρY

e in questo caso con una distribuzione normale multivariata, allora le distribuzioni marginali sonoX,Y

YN(ρX,1ρ2)XN(ρY,1ρ2)

Quindi puoi vedere la variabile Y come una parte e una parte del rumore con varianza . Lo stesso vale il contrario.ρX1ρ2

Maggiore è il coefficiente di correlazione , più vicine saranno le due linee. Ma più bassa è la correlazione, meno forte è la relazione, meno le linee saranno ripide (questo è vero per entrambe le linee e )ρY ~ XX ~ Y


0

La breve risposta

L'obiettivo di una semplice regressione lineare è quello di elaborare le migliori previsioni della yvariabile, dati i valori della xvariabile. Questo è un obiettivo diverso rispetto al tentativo di elaborare la migliore previsione della xvariabile, dati i valori della yvariabile.

La semplice regressione lineare di y ~ xoffre il modello "migliore" possibile per la previsione yfornita x. Quindi, se si adatta un modello x ~ ye lo si inverte algebricamente, quel modello potrebbe fare al suo meglio solo il modello per y ~ x. Ma invertire un modello adatto di x ~ ysolito farà peggio nel prevedere ydato x, rispetto al modello "ottimale" y ~ x, perché il " x ~ ymodello invertito " è stato creato per raggiungere un obiettivo diverso.

Illustrazione

Immagina di avere il seguente set di dati:

inserisci qui la descrizione dell'immagine

Quando si esegue una regressione OLS di y ~ x, si ottiene il seguente modello

y = 0.167 + 1.5*x

Ciò ottimizza le previsioni yeffettuando le seguenti previsioni, che hanno errori associati:

inserisci qui la descrizione dell'immagine

Le previsioni della regressione OLS sono ottimali, nel senso che la somma dei valori nella colonna più a destra (ovvero la somma dei quadrati) è la più piccola possibile.

Quando si esegue una regressione OLS di x ~ y, si ottiene un modello diverso:

x = -0.07 + 0.64*y

Ciò ottimizza le previsioni di x effettuando le seguenti previsioni, con errori associati.

inserisci qui la descrizione dell'immagine

Ancora una volta, questo è ottimale nel senso che la somma dei valori della colonna più a destra è il più piccola possibile (uguale a 0.071).

Ora, immagina di aver provato a invertire il primo modello y = 0.167 + 1.5*x, usando l'algebra, dandoti il ​​modello x = -0.11 + 0.67*x.

Questo ti darebbe le seguenti previsioni ed errori associati:

inserisci qui la descrizione dell'immagine

La somma dei valori nella colonna più a destra è 0.074, che è maggiore della somma corrispondente dal modello che si ottiene dalla regressione di x su y, ovvero il x ~ ymodello. In altre parole, il " y ~ xmodello invertito " sta facendo un lavoro peggiore nel predire x rispetto al modello OLS di x ~ y.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.