Esiste un modo elegante / perspicace per comprendere questa identità di regressione lineare per multiplo ?


10

Nella regressione lineare mi sono imbattuto in un risultato delizioso che se si adatta al modello

E[Y]=β1X1+β2X2+c,

quindi, se standardizziamo e centriamo i dati Y , X1 e X2 ,

R2=Cor(Y,X1)β1+Cor(Y,X2)β2.

Mi sembra una versione a 2 variabili di R2=Cor(Y,X)2 per la regressione y=mx+c , il che è gradito.

Ma l'unica prova che conosco non è in alcun modo costruttiva o perspicace (vedi sotto), eppure a guardarla sembra che dovrebbe essere facilmente comprensibile.

Pensieri di esempio:

  • I β1 e β2 ci danno la "proporzione" di X1 e X2 in Y , e quindi stiamo prendendo le rispettive proporzioni delle loro correlazioni ...
  • Le β sono correlazioni parziali, R2 è la correlazione multipla quadrata ... correlazioni moltiplicate per correlazioni parziali ...
  • Se prima ortogonalizziamo, allora β s sarà Cov/Var ... questo risultato ha un senso geometrico?

Nessuno di questi fili sembra portare da nessuna parte per me. Qualcuno può fornire una chiara spiegazione di come comprendere questo risultato.


Prova insoddisfacente

R2=SSregSSTot=SSregN=(β1X1+β2X2)2=β12X12+β22X22+2β1β2X1X2

e

Cor(Y,X1)β1+Cor(Y,X2)β2=YX1β1+YX2β2=β1X12+β2X1X2β1+β1X1X2+β2X22β2=β12X12+β22X22+2β1β2X1X2

QED.


È necessario utilizzare variabili standardizzate, altrimenti la formula per non è garantita tra e . Anche se questo assunto emerge dalla tua prova, sarebbe utile renderlo esplicito all'inizio. Sono perplesso anche su quello che stai davvero facendo: il tuo è chiaramente una funzione del modello da solo - non avendo nulla a che fare con i dati - eppure inizi a menzionare che hai "adattato" il modello a qualcosa . 0 1 R 2R201R2
whuber

Il tuo risultato migliore non vale solo se X1 e X2 sono perfettamente non correlati?
gung - Ripristina Monica

@gung Non credo - la prova in fondo sembra dire che funziona indipendentemente. Anche questo risultato mi sorprende, quindi voglio una "chiara prova di comprensione"
Korone,

@whuber Non sono sicuro di cosa intendi per "funzione del modello da solo"? Intendo semplicemente per OLS semplice con due variabili del predittore. Vale a dire questa è la versione variabile 2 diR 2 = C o r ( Y , X ) 2R2R2=Cor(Y,X)2
Korone

Non so dire se i tuoi sono parametri o stime. βi
whuber

Risposte:


9

La matrice del cappello è idempotente.

(Questo è un modo algebrico lineare per affermare che OLS è una proiezione ortogonale del vettore di risposta sullo spazio attraversato dalle variabili.)


Ricordalo per definizione

R2=ESSTSS

dove

ESS=(Y^)Y^

è la somma dei quadrati dei valori previsti (centrati) e

TSS=YY

è la somma dei quadrati dei valori di risposta (centrati). Anche la standardizzazione anticipata di alla varianza dell'unità implicaY

TSS=YY=n.

Ricordiamo anche che i coefficienti stimati sono dati da

β^=(XX)XY,

da dove

Y^=Xβ^=X(XX)XY=HY

dove è la "matrice cappello" effettuando la proiezione di sui suoi minimi quadrati . È simmetrico (che è evidente dalla sua stessa forma) e idempotente . Ecco una prova di quest'ultimo per coloro che non hanno familiarità con questo risultato. Mescola solo parentesi:Y YHYY^

HH=HH=(X(XX)X)(X(XX)X)=X(XX)(XX)(XX)X=X(XX)X=H.

Perciò

R2=ESSTSS=1n(Y^)Y^=1nYHHY=1nYHY=(1nYX)β^.

La mossa cruciale nel mezzo ha usato l'idempotenza della matrice del cappello. Il lato destro è la formula magica perché è il (riga) vettore di coefficienti di correlazione tra e le colonne di .YX1nYXYX


(+1) Scrittura molto bella. Ma perché ^{-}invece che ^{-1}ovunque?
ameba,

1
@amoeba È un inverso generalizzato , messo lì per gestire i casi in cui può essere singolare. XX
whuber

4
@amoeba Penrose, nel suo documento originale ( A Generalized Inverse for Matrices , 1954) usava la notazione . Non mi piace né quello né la notazione perché sono troppo facilmente confusi con coniugati, trasposizioni o trasposizioni coniugate, mentre la notazione è così suggestiva di un inverso che il lettore casuale può cavarsela pensando come se gli piace. Sei un lettore troppo bravo, ma grazie per averlo notato. A + A - A - 1AA+AA1
whuber

1
Motivazione interessante e avvincente, ma posso chiedere se questa notazione è qualcosa che viene occasionalmente usata altrove o è una tua invenzione?
ameba,

5
@amoeba: Sì, questa notazione appare altrove, incluso nei testi classici di Graybill sul modello lineare.
cardinale il

5

Le tre formule seguenti sono ben note, si trovano in molti libri sulla regressione lineare. Non è difficile derivarli.

β1=rYX1rYX2rX1X21rX1X22

β2=rYX2rYX1rX1X21rX1X22

R2=rYX12+rYX222rYX1rYX2rX1X21rX1X22

Se sostituisci i due beta nella tua equazione , otterrai la formula sopra per R-quadrato.R2=rYX1β1+rYX2β2


Ecco una "intuizione" geometrica. Di seguito sono riportate due immagini che mostrano la regressione di di e . Questo tipo di rappresentazione è noto come variabili come vettori nello spazio soggetto ( leggi di cosa si tratta). Le immagini vengono disegnate dopo aver centrato tutte e tre le variabili, quindi (1) la lunghezza di ogni vettore = st. deviazione della rispettiva variabile e (2) angolo (il suo coseno) tra ogni due vettori = correlazione tra le rispettive variabili.X 1 X 2YX1X2

inserisci qui la descrizione dell'immagine

YecosY Y =| Y | /| Y|Y^ è la previsione di regressione (proiezione ortogonale di sul "piano X"); è il termine di errore; , coefficiente di correlazione multipla.YecosYY^=|Y^|/|Y|

L'immagine a sinistra mostra le coordinate oblique di sulle variabili e . Sappiamo che tali coordinate mettono in relazione i coefficienti di regressione. Vale a dire, le coordinate sono: e . XY^X1X2b1|X1|=b1σX1b2|X2|=b2σX2

E l'immagine a destra mostra le coordinate perpendicolari corrispondenti . Sappiamo che tali coordinate mettono in relazione i coefficienti di correlazione di ordine zero (questi sono coseni di proiezioni ortogonali). Se è la correlazione tra e e è la correlazione tra e allora la coordinata è . Allo stesso modo per l'altra coordinata, .r1YX1r1Y^X1r1|Y|=r1σY=r1|Y^|=r1σY^r2|Y|=r2σY=r2|Y^|=r2σY^

Finora erano spiegazioni generali della rappresentazione del vettore di regressione lineare. Ora passiamo all'attività per mostrare come può portare a .R2=r1β1+r2β2

Innanzitutto, ricorda che nella loro domanda @Corone ha avanzato la condizione che l'espressione sia vera quando tutte e tre le variabili sono standardizzate , cioè non solo centrate ma anche ridimensionate alla varianza 1. Quindi (cioè implicando per essere le "parti operative" dei vettori) abbiamo coordinate pari a: ; ; ; ; così come. Ridisegna, in queste condizioni, solo il "piano X" delle immagini sopra:|X1|=|X2|=|Y|=1b1|X1|=β1b2|X2|=β2r1|Y|=r1r2|Y|=r2R=|Y^|/|Y|=|Y^|

inserisci qui la descrizione dell'immagine

Sull'immagine, abbiamo una coppia di coordinate ortogonali ed una coppia di coordinate skew, dello stesso vettore di lunghezza . Esiste una regola generale per ottenere coordinate perpendicolari da quelle inclinate (o indietro): , dove è la matrice di quelle perpendicolari; è la stessa matrice di dimensioni di quelli obliqui; e sono la matrice simmetrica degli angoli (coseni) tra gli assi non ortogonali.Y^RP=SCPpoints X axesSCaxes X axes

X1 e sono gli assi nel nostro caso, con come il coseno tra di loro. Quindi, e .X2r12r1=β1+β2r12r2=β1r12+β2

Sostituisci questi espressi tramite s @ Corone e otterrai quel , - che è vero , perché è esattamente come una diagonale di un parallelogramma (colorato sull'immagine) viene espressa attraverso i suoi lati adiacenti (quantità essendo il prodotto scalare).β R 2 = r 1 β 1 + r 2 β 2 R 2 = β 2 1 + β 2 2 + 2 β 1 β 2 r 12 β 1 β 2 r 12rβR2=r1β1+r2β2R2=β12+β22+2β1β2r12 β1β2r12

La stessa cosa è vera per qualsiasi numero di predittori X. Sfortunatamente, è impossibile disegnare immagini simili con molti predittori.


1
+1 bello vederlo costruito anche in questo modo, ma questo non aggiunge tante intuizioni rispetto alla risposta di whuber
Korone,

2
@Corone, ho aggiunto alcune "intuizioni" che potresti prendere.
ttnphns,

1
+1 Davvero fantastico (dopo l'aggiornamento). Pensavo che invocare una "regola generale" per la conversione tra coordinate fosse un po 'eccessivo (e per me era solo confuso); per vedere che ad esempio basta ricordare la definizione di coseno e osservare uno dei triangoli giusti. r1=β1+β2r12
ameba,

Modifica davvero interessante, switch accettato.
Korone,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.