Se A e B sono correlati con C, perché A e B non sono necessariamente correlati?


62

So empiricamente che è così. Ho appena sviluppato modelli che si imbattono in questo enigma. Ho anche il sospetto che non sia necessariamente una risposta sì / no. Voglio dire che se sia A che B sono correlati con C, ciò potrebbe avere delle implicazioni per quanto riguarda la correlazione tra A e B. Ma questa implicazione potrebbe essere debole. Potrebbe essere solo una direzione del segno e nient'altro.

Ecco cosa intendo ... Diciamo che A e B hanno entrambi una correlazione di 0,5 con C. Dato che, la correlazione tra A e B potrebbe ben essere 1.0. Penso che potrebbe anche essere 0,5 o addirittura inferiore. Ma penso sia improbabile che sia negativo. Sei d'accordo con questo?

Inoltre, c'è un'implicazione se stai prendendo in considerazione il coefficiente di correlazione di Pearson standard o invece il coefficiente di correlazione di Spearman (rango)? Le mie recenti osservazioni empiriche sono state associate al coefficiente di correlazione di Spearman.


38
Un esempio è quello di prendere , e . Possiamo prendere e siano indipendenti, tuttavia entrambi e sono correlati (positivamente, Pearson) con . B = Y C = X + Y X Y A B CA=XB=YC=X+YXYABC

1
Grazie, in realtà è un ottimo commento. Insomma, ma cattura l'essenza del motivo per cui è così.
Sympa,

Risposte:


53

Poiché la correlazione è una proprietà matematica delle distribuzioni multivariate, alcune intuizioni possono essere ottenute esclusivamente attraverso calcoli, indipendentemente dalla genesi statistica di tali distribuzioni.

Per le correlazioni di Pearson , considerare variabili multinormale , , . Questi sono utili su cui lavorare perché qualsiasi matrice definita non negativa è in realtà la matrice di covarianza di alcune distribuzioni multinormali, risolvendo così la domanda di esistenza. Se ci atteniamo alle matrici con sulla diagonale, le voci fuori diagonale della matrice di covarianza saranno le loro correlazioni. Scrivendo la correlazione di e come , la correlazione di e come e la correlazione di e comeY Z 1 X Y ρ Y Z τ X Z σXYZ1XYρYZτXZσ , lo calcoliamo

  • 1+2ρστ(ρ2+σ2+τ2)0 (perché questo è il fattore determinante della matrice di correlazione e non può essere negativo).

  • Quando questo implica che . Per dirla in altro modo: quando sia che sono di grandi dimensioni, e devono avere una correlazione diversa da zero.ρ 2 + τ 21 ρ τ X Zσ=0ρ2+τ21ρτXZ

  • Se , è possibile qualsiasi valore non negativo di (tra e ovviamente).σ 0 1ρ2=τ2=1/2σ01

  • Quando , sono ammessi valori negativi di . Ad esempio, quando , può essere ovunque tra e .σ ρ = τ = 1 / 2 σ - 1 / 2 1ρ2+τ2<1σρ=τ=1/2σ1/21

Queste considerazioni implicano che ci sono effettivamente alcuni vincoli sulle reciproche correlazioni. I vincoli (che dipendono solo dalla definizione non negativa della matrice di correlazione, non dalle distribuzioni effettive delle variabili) possono essere rafforzati a seconda delle ipotesi sulle distribuzioni univariate. Ad esempio, è facile vedere (e dimostrare) che quando le distribuzioni di e non fanno parte della stessa famiglia di scale di posizione, le loro correlazioni devono essere strettamente inferiori a dimensione. (Prova: una correlazione di implica che e sono linearmente correlati come)Y 1 ± 1 X YXY1±1XY

Per quanto riguarda le correlazioni di rango di Spearman , considera tre osservazioni trivariate , e di . Le loro correlazioni di rango reciproco sono , e . Così, anche il segno della correlazione di rango di e può essere il contrario dei segni delle correlazioni di e e e .(1,1,2)(2,3,1)(3,2,3)(X,Y,Z)1/21/21/2YZXYXZ


whuber, quali sono le "variabili multinormali"?
Sympa,


Come al solito, una spiegazione più approfondita ti dà un meritato segno di spunta "Migliore risposta".
Sympa,

@Gaetan Lion Sei molto gentile. Mi è piaciuto leggere tutte le risposte a questa domanda (e contrassegnarle tutte).
whuber

88

Sto facendo una battuta di pesca annuale proprio ora. Esiste una correlazione tra l'ora del giorno in cui pesca e la quantità di pesce che catturo. Esiste anche una correlazione tra la dimensione dell'esca che uso e la quantità di pesce che catturo. Non vi è alcuna correlazione tra la dimensione dell'esca e l'ora del giorno.


Basil, lo adoro! +1 per una semplice spiegazione in inglese.
Sympa,

Migliore. Risposta. Su stats.stackexchange. Ever
Chris Beeley,

1
Questo descrive un caso in cui le correlazioni sono basse all'inizio, ma non spiega il caso in cui le correlazioni sono più alte. Se esiste una correlazione dell'80% con l'ora del giorno e una correlazione dell'80% con la dimensione dell'esca, posso garantire che stai usando esche più grandi durante il giorno!
user35581

2
@ user35581 no non puoi - manchi l'intero punto. Ogni ora poteva pescare una volta con esche piccole e una volta con esche grandi. Può ancora pescare più pesci durante alcune parti della giornata (correlazione dell'80%) e catturare più pesci con esche più grandi (correlazione dell'80%) e c'è una correlazione 0 tra la dimensione dell'esca che sta usando e l'ora del giorno. Potrebbe anche essere una correlazione negativa se usa esche più grandi più spesso durante le ore non di punta del giorno per compensare il brutto momento della giornata. Quindi non sai davvero nulla della correlazione tra ora del giorno e dimensioni dell'esca.
rysqui,

2
@rysqui scusate, il mio commento era scarsamente formulato, ma il punto che stavo cercando di fare era questo: quando le correlazioni tra funzionalità e target diventano molto alte, anche le vostre funzionalità devono essere correlate. Quindi, se hai una perfetta correlazione tra ora del giorno e dimensione del pescato e una perfetta correlazione tra dimensione dell'esca e dimensione del pescato, allora devi anche avere una correlazione perfetta tra dimensione dell'esca e ora del giorno, quindi la dichiarazione finale "stai usando esche più grandi durante il giorno". Tieni presente che questo è un caso limite!
user35581

20

La correlazione è il coseno dell'angolo tra due vettori. Nella situazione descritta, (A, B, C) è una tripla di osservazioni, fatte n volte, ciascuna osservazione è un numero reale. La correlazione tra A e B è il coseno dell'angolo tra e misurato nello spazio euclideo n-dimensionale. Quindi la nostra situazione si riduce a considerare 3 vettori , e nello spazio n dimensionale. Abbiamo 3 coppie di vettori e quindi 3 angoli. Se due degli angoli sono piccoli (alta correlazione), anche il terzo sarà piccolo. Ma dire "correlato" non è molto una restrizione: significa che l'angolo è compreso tra 0 eVA=AE(A)VB=BE(B)VAVBVCπ/2. In generale questo non dà alcuna restrizione al terzo angolo. In altre , inizia con un angolo inferiore a tra e (qualsiasi correlazione tranne -1). Lascia che l'angolo tra e . Quindi C sarà correlato con A e B.πVAVBVCVAVB


La correlazione +1 in termini di angolo tra vettori multidimensionali è intuitiva per me.
Petrus Theron,

2
Per il riferimento dei futuri lettori, espanderò questa risposta geometrica (con immagini!) Nel seguente thread: talkstats.com/showthread.php/…
Jake Westfall,

18

Come aggiunta alla risposta di Whuber: la formula presentata

1+2ρστ(ρ2+σ2+τ2)0 .

può essere trasformato nella seguente disuguaglianza (Olkin, 1981):

στ(1σ2)(1τ2)ρστ+(1σ2)(1τ2)

Una rappresentazione grafica dei limiti superiore e inferiore per è simile a:ρ

inserisci qui la descrizione dell'immagine


Olkin, I. (1981). Restrizioni di gamma per matrici di correlazione momento-prodotto. Psychometrika, 46, 469-472. doi: 10.1007 / BF02293804


Qualcuno può dirmi se alcuni di questi esempi sono distribuzioni multivariate che hanno specifiche distribuzioni marginali che limitano la gamma di possibili correlazioni tra componenti? Ciò significa che le correlazioni non possono assumere l'intera gamma da -1 a 1. Ricordo che Frechet era almeno una persona che lo sviluppò negli anni '50. Mentre cerco oggi la letteratura, penso che ora siano chiamati copule Frechet.
Michael Chernick il

14

Penso che sia meglio chiedere "perché DOVREBBERO essere correlati?" o forse "Perché dovrebbe avere qualche correlazione particolare?"

Il seguente codice R mostra un caso in cui x1 e x2 sono entrambi correlati con Y, ma hanno una correlazione 0 tra loro

x1 <- rnorm(100)
x2  <- rnorm(100)
y <- 3*x1 + 2*x2 + rnorm(100, 0, .3)

cor(x1,y)
cor(x2,y)
cor(x1,x2)

La correlazione con Y può essere rafforzata riducendo da .3 a .1 o altro


Sfortunatamente, non sono un utente R. Quindi, i codici sopra significano meno per me di quanto significhino per te.
Sympa,

2
@Gaetan Lion: in questo codice, e sono normali radice indipendenti e più un normale termine di rumore con deviazione standard di 0,3. Chiaramente è positivamente correlato a e , che sono indipendenti. x 2 y = 3 x 1 + 2 x 2 y x 1 x 2x1x2y=3x1+2x2yx1x2
Shabbychef,

14

Lascerò la dimostrazione statistica a coloro che sono più adatti di me per questo ... ma dire intuitivamente che l'evento A genera un processo X che contribuisce alla generazione dell'evento C. Quindi A è correlato a C (attraverso X). B, d'altra parte genera Y, che modella anche C. Pertanto A è correlato a C, B è correlato a C ma A e B non sono correlati.


1
@Bello. Penso che intendi "A e B non sono correlati" nell'ultima parte dell'ultima frase.
suncoolsu,

Sì, Nico con correzione del suncoolsu ... questa è una spiegazione ragionevolmente buona. Stai parzialmente descrivendo l'analisi del percorso.
Sympa,

Sì, scusa, mi sono confuso con le lettere;)
nico,

1

Per coloro che desiderano un po 'di intuizione, una correlazione può essere vista come un coseno di un certo angolo. Quindi, considera tre vettori in 3D, diciamo A, B e C, ciascuno corrispondente a una variabile. La domanda è determinare l'intervallo di possibili angoli tra A e C quando sono noti l'angolo tra A e B, nonché l'angolo tra B e C. Per questo, puoi giocare con uno strumento online senza installare alcun software. Vai alla pagina http://www.montefiore.ulg.ac.be/~pierard/chained_correlations.php


0

Facciamo un esempio:

A={x1,x2,x3,x4,x5,x6,x7,x8,x9}

B={x1,x2,x3,0,0,0,0,0,0}

C={0,0,0,x4,x5,x6,0,0,0}

Per alcuni x, A e B avranno una correlazione significativa, allo stesso modo A e C avranno anche una correlazione significativa ma la correlazione di B e C non sarà significativa.

Quindi, non è necessariamente vero che se A e B sono correlati e A e C sono correlati, anche B e C sono correlati.

Nota: per una comprensione approfondita, si prega di pensare a questo esempio su dati di grandi dimensioni.


BCx1x6ABCx1x9

Sono a mio agio con la risposta di Abhishek Anand perché alla fine tutto è in qualche modo correlato a tutto il resto. E mi piace il modo in cui lo confronta in termini di significatività statistica. Una volta che usi quel framework è abbastanza ovvio che se A e B sono statisticamente significativamente correlati con C, sia A che B potrebbero non essere necessariamente statisticamente significativamente correlati (usando l'attuale framework della mia domanda originale). Penso che i diagrammi di sfiato possano fornire un'eccellente spiegazione visiva di quel concetto.
Sympa,

@whuber Sono d'accordo con te. È solo un esempio di esempio che spiega perché non è necessario
Abhishek Anand,

Va bene, ma sembra che tu abbia un'idea sbagliata di quali siano le correlazioni tra questi vettori. Nessuna delle affermazioni fatte sui coefficienti di correlazione di questi vettori è generalmente corretta.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.