Qual è la differenza tra regressione lineare su y con xe x con y?


97

Il coefficiente di correlazione di Pearson di xey è lo stesso, sia che si calcoli pearson (x, y) o pearson (y, x). Ciò suggerisce che fare una regressione lineare di y dato x o x dato y dovrebbe essere lo stesso, ma non penso che sia il caso.

Qualcuno può fare luce quando la relazione non è simmetrica e in che modo si riferisce al coefficiente di correlazione di Pearson (che considero sempre come una sintesi della linea più adatta)?


1
Ogni matrice di correlazione sarà simmetrica perché cov(X,y)=cov(y,X) . Ti incoraggio a elaborare la matematica per vedere che questo è davvero vero. Se si conosce il rapporto tra X e y (o qualsiasi altra cosa le variabili di interesse) non è simmetrica a priori , potrebbe beneficiare di guardare in ad altri metodi di analisi.
Phillip Cloud,

14
Sono stati fatti punti interessanti su una domanda correlata, Effetto del cambio di risposta e variabile esplicativa nella semplice regressione lineare .
chl

Risposte:


159

Il modo migliore per pensarci è immaginare un grafico a dispersione di punti con sull'asse verticale e x rappresentati dall'asse orizzontale. Dato questo quadro, vedi una nuvola di punti, che può essere vagamente circolare o può essere allungata in un'ellisse. Quello che stai cercando di fare in regressione è trovare quella che potrebbe essere definita la "linea della migliore misura". Tuttavia, sebbene ciò sembri semplice, dobbiamo capire cosa intendiamo per "migliore", e ciò significa che dobbiamo definire quale sarebbe una linea per essere buona, o per una linea essere migliore di un'altra, ecc. In particolare , dobbiamo stipulare una funzione di perditayX. Una funzione di perdita ci dà un modo per dire quanto sia "cattivo" qualcosa, e quindi, quando lo minimizziamo, rendiamo la nostra linea il più "buona" possibile o troviamo la linea "migliore".

Tradizionalmente, quando eseguiamo un'analisi di regressione, troviamo le stime della pendenza e dell'intercettazione in modo da ridurre al minimo la somma degli errori al quadrato . Questi sono definiti come segue:

SSE=Σio=1N(yio-(β^0+β^1Xio))2

In termini di grafico a dispersione, ciò significa che stiamo minimizzando le distanze verticali (somma dei quadrati) tra i punti di dati osservati e la linea.

inserisci qui la descrizione dell'immagine

D'altra parte, è perfettamente ragionevole regredire su y , ma in tal caso, inseriremmo x sull'asse verticale e così via. Se abbiamo tenuto la trama così com'è (con x sull'asse orizzontale), che regredisce x su y (di nuovo, utilizzando una versione leggermente adattata dell'equazione sopra con x ed y commutata) significa che ci sarebbe minimizzando la somma delle distanze orizzontaliXyXXXyXytra i punti dati osservati e la linea. Sembra molto simile, ma non è esattamente la stessa cosa. (Il modo per riconoscerlo è farlo in entrambi i modi, quindi convertire algebricamente una serie di stime dei parametri nei termini dell'altra. Confrontando il primo modello con la versione riorganizzata del secondo modello, diventa facile capire che sono non lo stesso.)

inserisci qui la descrizione dell'immagine

Si noti che nessuno dei due modi produrrebbe la stessa linea che trarremmo intuitivamente se qualcuno ci consegnasse un pezzo di carta millimetrata con punti tracciati su di esso. In tal caso, disegneremmo una linea dritta attraverso il centro, ma minimizzare la distanza verticale produce una linea leggermente più piatta (cioè con una pendenza più bassa), mentre minimizzare la distanza orizzontale produce una linea leggermente più ripida .

Una correlazione è simmetrica; è correlato con y come y è con x . La correlazione del momento-prodotto di Pearson può essere compresa in un contesto di regressione. Il coefficiente di correlazione, r , è la pendenza della linea di regressione quando entrambe le variabili sono state standardizzate per prime. Cioè, prima hai sottratto la media da ogni osservazione e poi diviso le differenze per la deviazione standard. La nuvola di punti dati sarà ora centrato sull'origine, e la pendenza sarebbe lo stesso se regredito y su x , o x su yXyyXryXXy (ma nota il commento di @DilipSarwate di seguito).

inserisci qui la descrizione dell'immagine

yXy. Questo è molto diverso dal dire il contrario. Ciò è stato importante in un episodio storico interessante: tra la fine degli anni '70 e l'inizio degli anni '80 negli Stati Uniti, è stato dimostrato che c'era discriminazione nei confronti delle donne sul posto di lavoro, e questo è stato supportato da analisi di regressione che mostrano che le donne con un background uguale (ad es. , qualifiche, esperienza, ecc.) sono stati pagati, in media, meno degli uomini. I critici (o solo le persone che erano molto approfondite) hanno sostenuto che se ciò fosse vero, le donne pagate allo stesso modo con gli uomini avrebbero dovuto essere più qualificate, ma quando questo è stato verificato, è stato scoperto che sebbene i risultati fossero "significativi" quando valutati in un modo, non erano "significativi" se controllati nell'altro modo, il che ha gettato tutte le persone coinvolte in un brivido. Vedi qui per un famoso documento che ha cercato di chiarire il problema.


(Aggiornato molto più tardi) Ecco un altro modo di pensare a questo che affronta l'argomento attraverso le formule anziché visivamente:

yXXy

β^1=Cov(x,y)Var(x)y on x                              β^1=Cov(y,x)Var(y)x on y
Var(x)Var(y)SD(x)SD(y)β^1r
r=Cov(X,y)SD(X)SD(y)correlando X con y                           r=Cov(y,X)SD(y)SD(X)correlando y con X

2
+1 per menzionare la riduzione al minimo della funzione di perdita. Le alternative alle distanze verticali o orizzontali includono l'uso della distanza perpendicolare alla linea o all'area del rettangolo, che producono ciascuna diverse linee di regressione.
Henry,

7
yXXyXy
Dilip Sarwate,

4
yXXXyX

1
Potresti dire che in caso di correlazione viene minimizzata la distanza ortogonale tra i punti e la linea? (Intendo la linea che va dal punto alla linea di "regressione" e che si trova in piedi ortogonalmente su di essa).
vonjd,

1
La correlazione di Pearson non si adatta perfettamente a una linea, @vonjd. Si scopre che è equivalente alla pendenza di una linea dei minimi quadrati montati quando i dati sono stati standardizzati per primi. Il primo componente principale, quando ci sono solo 2 variabili e i dati sono stati standardizzati per primi, è una specie di linea adattata che minimizza le distanze ortogonali. HTH
gung - Ripristina Monica

12

Illustrerò la risposta con un po 'di Rcodice e output.

Innanzitutto, costruiamo una distribuzione normale casuale y, con una media di 5 e una SD di 1:

y <- rnorm(1000, mean=5, sd=1)

Successivamente, creo di proposito una seconda distribuzione normale casuale x, che è semplicemente 5 volte il valore di yper ciascuno y:

x <- y*5

In base alla progettazione, abbiamo una correlazione perfetta di xe y:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

Tuttavia, quando facciamo una regressione, stiamo cercando una funzione che si collega xe yquindi i risultati dei coefficienti di regressione dipendono da quale usiamo come variabile dipendente e quali usiamo come variabile indipendente. In questo caso, non inseriamo un'intercettazione perché abbiamo fatto xuna funzione ysenza variazione casuale:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

Quindi le regressioni ci dicono questo y=0.2xe quello x=5y, che ovviamente sono equivalenti. Il coefficiente di correlazione ci sta semplicemente mostrando che esiste una corrispondenza esatta tra i livelli di variazione unitaria tra xe y, quindi (per esempio) un aumento di 1 unità yproduce sempre un aumento di 0,2 unità x.


6

L'intuizione che, poiché la correlazione di Pearson è la stessa sia che facciamo una regressione di x contro y, sia che y contro x sia buona, dovremmo ottenere la stessa regressione lineare è buona. È solo leggermente errato e possiamo usarlo per capire cosa sta realmente accadendo.

Questa è l'equazione per una linea, che è ciò che stiamo cercando di ottenere dalla nostra regressione

inserisci qui la descrizione dell'immagine

L'equazione per la pendenza di quella linea è guidata dalla correlazione di Pearson

inserisci qui la descrizione dell'immagine

Questa è l'equazione per la correlazione di Pearson. È lo stesso se stiamo regredendo x contro y o y contro x

inserisci qui la descrizione dell'immagine

Tuttavia, quando guardiamo indietro alla nostra seconda equazione per la pendenza, vediamo che la correlazione di Pearson non è l'unico termine in quella equazione. Se calcoliamo y rispetto a x, abbiamo anche la deviazione standard del campione di y divisa per la deviazione standard del campione di x. Se dovessimo calcolare la regressione di x contro y avremmo bisogno di invertire quei due termini.


4

Su domande come questa è facile farsi prendere dalle questioni tecniche, quindi mi piacerebbe concentrarmi specificamente sulla domanda nel titolo del thread che chiede: Qual è la differenza tra regressione lineare su y con xe x con y ?

salari=B0+B1 anni di istruzione+errore

anni di istruzione=B0+B1 salari+errore

Sono sicuro che puoi pensare a più esempi come questo (anche al di fuori del regno dell'economia), ma come puoi vedere, l'interpretazione del modello può cambiare in modo abbastanza significativo quando passiamo dalla regressione di y su x a x su y.

Quindi, alla risposta alla domanda: qual è la differenza tra la regressione lineare su y con xe x con y? , possiamo dire che l' interpretazione dell'equazione di regressione cambia quando regrediamo x su y anziché y su x. Non dovremmo trascurare questo punto perché un modello che ha un'interpretazione sonora può rapidamente trasformarsi in uno che ha poco o nessun senso.


3

C'è un fenomeno molto interessante su questo argomento. Dopo aver scambiato xey, anche se il coefficiente di regressione cambia, ma la statistica t / statistica F e il livello di significatività per il coefficiente non cambiano. Questo vale anche anche nella regressione multipla, dove scambiamo y con una delle variabili indipendenti.

È dovuto a una delicata relazione tra la statistica F e il coefficiente di correlazione (parziale). Questa relazione tocca davvero il nucleo della teoria dei modelli lineari. Nel mio taccuino ci sono maggiori dettagli su questa conclusione: perché scambiare yey non ha alcun effetto su p



2
L'articolo "Perché scambiare yey non ha alcun effetto su p" non è più qui. Lo aggiungerai di nuovo?
JetLag il

1

Espandendo l'eccellente risposta di @ gung:

ryXXy

β^1yonXβ^1Xony=Cov(X,y)Var(X)Cov(y,X)Var(y)=|Cov(X,y)|SD(X)SD(y)=|r|
r
r=Siogn(β^1yonX)β^1yonXβ^1Xony
r=Siogn(β^1Xony)β^1yonXβ^1Xony

r

|12(β^1yonX+β^1Xony)|β^1yonXβ^1Xony=|r|


1

 Fare regressione di y dato X

minBE(Y-BX)2

facendo regressione di X dato y

minBE(X-BY)2

minB1B2E(Y-BX)2

È anche importante notare che due problemi di aspetto diverso possono avere la stessa soluzione.


1
Anche se questo è corretto - e grazie per queste osservazioni - lasci i tuoi lettori sospesi: potresti spiegare perché le soluzioni a questi due diversi problemi di aspetto sono necessariamente diverse?
whuber

1
Guarda

come è l'ultima riga equivalente alla linea di mezzo? Se moltiplichi 1 / b ^ 2 ottieni E (X - Y / b) ^ 2 non E (X - Yb) ^ 2
Austin Shin

BB: =1/B

+1: hai chiaramente espresso il tuo punto ora!
whuber

0

Bene, è vero che per una semplice regressione bivariata, il coefficiente di correlazione lineare e il quadrato R saranno gli stessi per entrambe le equazioni. Ma le pendenze saranno r Sy / Sx o r Sx / Sy, che non sono reciproche, a meno che r = 1.


1
-1r2=1

-7

L'idea di base della regressione può essere la "causa ed effetto" o "indipendente e dipendente". La normale pratica di posizionare una variabile indipendente nell'asse X e una variabile dipendente nell'asse Y, è rappresentata da Y = mX + c. Se la pendenza deve essere chiamata come m (X su Y) o (Y su X) e la regressione come: (X su Y) o (Y su X). È gestito in entrambi i modi, il che non è positivo e deve essere chiarito. I modellisti usano spesso grafici a dispersione per giudicare se la serie simulata corrisponde alla serie osservata; e l'uso della linea di regressione è inevitabile. qui non c'è una clausola causale. Andando per questa necessità, la domanda muta posta dal thread rimane. O semplicemente, chiarisci come chiamare la normale analisi di regressione: X su Y; o Y su X ?, andando oltre la risposta causale. Non è una risposta al thread principale; ma una domanda parallela.


6
-1 Oltre ad essere incoerente, questa risposta omette l'idea chiave così abilmente spiegata nella migliore risposta: il modello di probabilità di variazione nei dati determina se la regressione è significativa e determina quale variabile può essere considerata la variabile dipendente.
whuber

Il rispondente potrebbe reiterare un'interpretazione della domanda sul titolo, in qualche modo poco chiara, in termini di etichettatura abituale. Per un problema della forma y = mx + b, si descrive in genere la relazione come "y è regredito su x" (sì) o come "x è regredito su y" (no)? La domanda terminologica è disponibile su stats.stackexchange.com/questions/207425/… .
InColorado,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.