Perché il coefficiente di correlazione tra le variabili casuali X e XY tende ad essere 0,7


49

Tratto da Statistiche pratiche per la ricerca medica in cui Douglas Altman scrive a pagina 285:

... per due quantità qualsiasi X e Y, X sarà correlato a XY. In effetti, anche se X e Y sono campioni di numeri casuali, ci aspetteremmo che la correlazione di X e XY sia 0,7

Ho provato questo in R e sembra essere il caso:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Perché? Qual è la teoria dietro questo?


Per quale parte vuoi una spiegazione? Vuoi solo l'equazione semplificata per la correlazione che risulta a causa della correlazione nota tra x, ye covarianza tra x e xy? Oppure vuoi solo sapere perché c'è della covarianza qui?
Giovanni

È vero per qualsiasi e ? Supponiamo che e non siano correlati e che . Quindi sospetto che non sarà correlato con . Y X Z Y = X - Z X X - YXYXZY=XZXXY
Henry,

Risposte:


69

Se e sono variabili casuali non correlate con uguale varianza , allora abbiamo Di conseguenza,Y σ 2 var ( X - Y )XYσ2

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
Quindi, quando trovi la correlazione di esempio di e per un set di dati di grandi dimensioni tratto da una popolazione con queste proprietà, che include "numeri casuali" come un caso speciale, il risultato tende ad essere vicino al valore di correlazione della popolazione
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy{(xi,yi):1in}120.7071

Potresti spiegare un po 'di più comecov(X,X)-cov(X,Y)=s^2
nostock

5
cov (X, X) è un altro nome per var (X). cov (X, Y) = 0 poiché X e Y sono considerati non correlati (quindi covarianza = 0).
Dilip Sarwate,

58

Una spiegazione geometrico-statistica.

Immagina di creare un grafico a dispersione "dentro-fuori" in cui soggetti sono gli assi e le variabili e sono i punti . Questo è chiamato un diagramma di spazio soggetto (al contrario del solito diagramma di spazio variabile ). Poiché ci sono solo 2 punti da tracciare, tutte le dimensioni in un tale spazio, tranne solo due dimensioni arbitrarie che sono in grado di supportare i 2 punti più l'origine, sono ridondanti e possono essere eliminate in modo sicuro. E così ci resta un aereo. Disegniamo frecce vettoriali dall'origine ai punti: queste sono le nostre variabili e come vettori nello spazio soggetto dei dati.n 2 XYXY

Ora, se le variabili fossero centrate , allora, in uno spazio soggetto, il coseno dell'angolo tra i loro vettori è il loro coefficiente di correlazione . Nell'immagine sotto i vettori e sono ortogonali: il loro . La non correlazione era un prerequisito delineato da @Dilip nella loro risposta.Y r = 0XYr=0

Anche per le variabili centrate, le loro lunghezze vettoriali in uno spazio soggetto sono le loro deviazioni standard . Nella foto, e hanno la stessa lunghezza, - anche le variazioni uguali erano un prerequisito fatto da @Dilip.YXY

Per disegnare la variabile o la variabile usiamo solo l'aggiunta o la sottrazione vettoriale che abbiamo dimenticato dalla scuola (sposta il vettore Y alla fine del vettore X e inverti la direzione in caso di sottrazione, questo è indicato da frecce grigie sulla foto, quindi disegna un vettore nel punto in cui punta la freccia grigia).X + YXYX+Y

Diventa molto chiaro che la lunghezza dei vettori o (la deviazione standard di queste variabili) è, per teorema di Pitagora, e l'angolo tra e o è 45 gradi, che coseno - la correlazione - èX + Y XYX+Y XX-YX+Y0.707 ...2σ2XXYX+Y0.707...

inserisci qui la descrizione dell'immagine


4
Un grande +1 per condividere questo approccio.
whuber

(+1) È un modo molto semplice di presentarlo!
Matt Krause,

Ahh ... foto! (+1) Ben fatto. :-)
cardinale

11

Credo che anche qui ci sia una semplice intuizione basata sulla simmetria. Poiché X e Y hanno le stesse distribuzioni e hanno una covarianza di 0, la relazione di X ± Y con X dovrebbe "spiegare" metà della variazione in X ± Y; l'altra metà dovrebbe essere spiegata da Y. Quindi R 2 dovrebbe essere 1/2, il che significa che R è 1 / √2 ≈ 0,707.


Sembra una buona intuizione, ma nota che se , il modo standard di scrivere sarebbe , non che potrebbe confondere alcune persone anche se sono algebricamente equivalenti. rr2=12r 1/1/21/2
gung - Ripristina Monica

No, non è davvero più standard. (Se hai bisogno di prove, cerca la risposta migliore. Le 38 persone che hanno già votato per questo non si sono lamentate con la stessa notazione.)
denn333

Sono uno di quei 38 ;-). La domanda è: cosa riuscirà più facilmente a seguire qualcuno la cui algebra è abbastanza debole? Se , è più facile vedere che . r = r2=1/2r=1/2
gung - Ripristina Monica

3

Ecco un modo semplice di pensare al perché esiste una correlazione qui.

Immagina cosa succede quando sottrai due distribuzioni. Se il valore di x è basso, in media x - ysarà un valore inferiore rispetto a se il valore di x è alto. All'aumentare di x quindi x - yaumenta, in media, e quindi una correlazione positiva.


4
Non penso che la tua affermazione sia sempre vera "Ci sarà sempre una correlazione tra due distribuzioni casuali quando c'è una relazione matematica". es. x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
curious_cat il

4
@curious_cat: O, forse per essere ancora più evocativo, lascia perdere ytutto. :-)
cardinale
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.