Regressione multipla o coefficiente di correlazione parziale? E i rapporti tra i due


35

Non so nemmeno se questa domanda abbia un senso, ma qual è la differenza tra regressione multipla e correlazione parziale (a parte le ovvie differenze tra correlazione e regressione, che non è ciò a cui sto puntando)?

Voglio capire quanto segue:
ho due variabili indipendenti ( , ) e una variabile dipendente ( ). Ora individualmente le variabili indipendenti non sono correlate con la variabile dipendente. Ma per un dato y diminuisce quando diminuisce x_2 . Quindi lo analizzo per mezzo di regressione multipla o correlazione parziale ?x1x2yx1 yx2

modifica per migliorare la mia domanda: sto cercando di capire la differenza tra regressione multipla e correlazione parziale. Quindi, quando y diminuisce per un dato x1 quando diminuisce x2 , ciò è dovuto all'effetto combinato di x1 e x2 su y (regressione multipla) o è dovuto alla rimozione dell'effetto di x1 (correlazione parziale)?


3
Qual è la domanda sostanziale a cui stai cercando di rispondere?
gung - Ripristina Monica

Vedi anche domanda molto simile stats.stackexchange.com/q/50156/3277 .
ttnphns,

Risposte:


32

Il coefficiente di regressione lineare multipla e la correlazione parziale sono direttamente collegati e hanno lo stesso significato (valore p). La r parziale è solo un altro modo di standardizzare il coefficiente, insieme al coefficiente beta (coefficiente di regressione standardizzato) 1 . Quindi, se la variabile dipendente è y e gli indipendenti sono x 1 e x 2 allora1yx1x2

Beta:βx1=ryx1ryx2rx1x21rx1x22

Partial r:ryx1.x2=ryx1ryx2rx1x2(1ryx22)(1rx1x22)

Vedete che i numeratori sono gli stessi che indicano che entrambe le formule misurano lo stesso effetto unico di . Proverò a spiegare come le due formule siano strutturalmente identiche e come non lo siano.x1

Supponiamo di avere standardizzato z (media 0, varianza 1) tutte e tre le variabili. Il numeratore è quindi uguale alla covarianza tra due tipi di residui : i residui (a) lasciati nella previsione di per x 2 [entrambe le variabili standard] e i residui (b) lasciati nella previsione di x 1 per x 2 [entrambe le variabili standard] . Inoltre, la varianza dei residui (a) è 1 - r 2 y x 2 ; la varianza dei residui (b) è 1 - r 2 x 1 x 2 .yx2x1x21ryx221rx1x22

La formula per la correlazione parziale appare quindi chiaramente la formula del semplice Pearson , come calcolata in questo caso tra residui (a) e residui (b): Pearson r , lo sappiamo, è covarianza divisa per il denominatore che è la media geometrica di due diverse varianti.rr

Il coefficiente standardizzato beta è strutturalmente come Pearson , solo che il denominatore è la media geometrica di una varianza con il proprio io . La varianza dei residui (a) non è stata conteggiata; è stato sostituito dal secondo conteggio della varianza dei residui (b). Beta è quindi la covarianza dei due residui relativa alla varianza di uno di essi (in particolare, quello relativo al predittore di interesse, x 1 ). Mentre la correlazione parziale, come già notato, è quella stessa covarianza rispetto alla loro varianza ibrida . Entrambi i tipi di coefficiente sono modi per standardizzare l'effetto di x 1 nell'ambiente di altri predittori.rx1x1

Alcune conseguenze numeriche della differenza. Se il quadrato R di regressione multipla di per x 1 e x 2 risulta essere 1, entrambe le correlazioni parziali dei predittori con il dipendente avranno anche 1 valore assoluto (ma i beta non saranno generalmente 1). In effetti, come detto prima, r y x 1 . x 2 è la correlazione tra i residui di e i residui di . Se ciò che non è x 2 in y è esattamente ciò che non è x 2 in x 1yx1x2ryx1.x2y <- x2x1 <- x2x2y x2x1allora non c'è nulla in che non sia né x 1x 2 : adattamento completo. Qualunque sia la quantità della porzione inspiegabile (per x 2 ) rimasta in y ( 1 - r 2 y x 2 ), se viene catturata in modo relativamente elevato dalla porzione indipendente di x 1 (per 1 - r 2 x 1 x 2 ), r y x 1 . x 2 sarà alto. β x 1yx1x2x2y1ryx22x11rx1x22ryx1.x2βx1d'altra parte, sarà elevato solo a condizione che la porzione inspiegabile catturata di sia essa stessa una porzione sostanziale di y .yy


Dalle formule di cui sopra si ottiene (ed estendentesi dalla regressione 2-predittore di una regressione con numero arbitrario di predittori ) La formula di conversione tra beta e corrispondente r parziale:x1,x2,x3,...

ryx1.X=βx1var(ex1X)var(eyX),

dove sta per la raccolta di tutti i predittori tranne l'attuale ( x 1 ); e y X sono i residui della regressione di y di X , ed e x 1X sono i residui della regressione di x 1 di X , le variabili in entrambe queste regressioni li inseriscono standardizzate .Xx1eyXyXex1Xx1X

Nota: se abbiamo bisogno di calcolare correlazioni parziali di con ogni predittore x di solito non useremo questa formula che richiede di fare due ulteriori regressioni. Piuttosto, verranno eseguite le operazioni di sweep (spesso utilizzate negli algoritmi di regressione graduale e di tutti i sottoinsiemi) o verrà calcolata la matrice di correlazione anti-immagine .yx


β x 1 = b x 1 σ x 11 è la relazione tra ilbgrezzoe icoefficientiβstandardizzatiin regressione con intercetta.βx1=bx1σx1σybβ


Grazie. Ma come faccio a decidere quale scegliere, ad esempio per lo scopo descritto nella mia domanda?
user34927

2
Ovviamente, sei libero di scegliere: i numeratori sono gli stessi, quindi trasmettono le stesse informazioni. Per quanto riguarda la tua domanda (non completamente chiarita), sembra che si tratti di argomenti "può regr. Coef. Essere 0 quando r non è 0"; "può regr. coef. non essere 0 quando r è 0". Ci sono molte domande a riguardo sul sito. Ad esempio, potresti leggere stats.stackexchange.com/q/14234/3277 ; stats.stackexchange.com/q/44279/3277 .
ttnphns,

Ho cercato di chiarire la mia domanda ..
user34927

Correzione di X1 ("x1 dato") = rimozione (controllo) dell'effetto di X1. Non esiste una cosa come "effetto combinato" nella regressione multipla (a meno che non si aggiunga l'interazione X1 * X2). Gli effetti nella regressione multipla sono competitivi. Gli effetti di regressione lineare sono in realtà correlazioni parziali.
ttnphns,

1
Aspetta un po ', @ user34927. to prove that the DV (Y) is significantly correlated with one of two IVs (X1) if the effect of the other IV (X2) is removedL'effetto rimosso da dove ? Se "rimuovi" X2 da Y e X1, allora il corr. tra Y e X1 è la correlazione parziale . Se "rimuovi" X2 solo da X1, allora il corr. tra Y e X1 è chiamata la parte (o semi-parziale) correlazione. Eri davvero chiedendo circa esso ?
ttnphns,

0

Ho appena incontrato questo passo per caso. Nella risposta originale, nella formula per il fattore βx1Manca S S Y / S S X 1 , ovvero β x 1 = r y x 1 - r y x 2 r x 1 x 2SSY/SSX1

βx1=ryx1ryx2 rx1x21rx1x22×SSYSSX1,
where SSY=i(yiy¯)2 and SSX1=i(x1ix¯1)2.

You are giving the formula of b. My answer was about β.
ttnphns
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.