Come spiegheresti la differenza tra correlazione e covarianza?


109

In seguito a questa domanda, come spiegheresti la covarianza a qualcuno che capisce solo la media? , che affronta il problema di spiegare la covarianza a un laico, mi è venuta in mente una domanda simile.

Come si potrebbe spiegare a un neofita statistico la differenza tra covarianza e correlazione ? Sembra che entrambi si riferiscano alla modifica di una variabile collegata a un'altra variabile.

Analogamente alla questione pregiudiziale, sarebbe preferibile una mancanza di formule.

Risposte:


109

Il problema con le covarianze è che sono difficili da confrontare: quando si calcola la covarianza di un insieme di altezze e pesi, espressa in (rispettivamente) metri e chilogrammi, si otterrà una covarianza diversa rispetto a quando lo si fa in altre unità ( che crea già un problema per le persone che fanno la stessa cosa con o senza il sistema metrico!), ma sarà anche difficile stabilire se (ad esempio) altezza e peso 'covary more' di, diciamo la lunghezza delle dita dei piedi e delle dita , semplicemente perché la "scala" su cui viene calcolata la covarianza è diversa.

La soluzione a questo è di "normalizzare" la covarianza: dividi la covarianza per qualcosa che rappresenta la diversità e la scala in entrambe le covariate, e finisci con un valore che è certo di essere compreso tra -1 e 1: la correlazione. Indipendentemente dall'unità in cui si trovavano le variabili originali, otterrai sempre lo stesso risultato e ciò garantirà anche che, in una certa misura, puoi confrontare se due variabili "correlano" più di altre due, semplicemente confrontando la loro correlazione.

Nota: quanto sopra presuppone che il lettore comprenda già il concetto di covarianza.


2
+1 Intendevi scrivere "correlazione" anziché "covarianza" nell'ultima frase?
whuber

Sei sicuro di non poter confrontare le covarianze con unità diverse? Le unità passano per la covarianza moltiplicata - se la tua X è dentro cme la tua Y è dentro s, allora la tua . E quindi puoi semplicemente moltiplicare per il risultato per il fattore di conversione dell'unità. Provalo in R:cov(X,Y)=z cmScov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
naught101

3
@ naught101 Sospetto che il punto sia che, se ti dicessi che e nient'altro, non avresti idea di se X sia altamente predittivo di Y o no, mentre se ti dicessi che Cor ( X , Y ) = .9 avresti qualcosa di un po 'più interpretabile. Cov(X,Y)=1010XYCor(X,Y)=.9
ragazzo,

@guy: Sarebbero covarianze senza unità: PI pensa che la cosa importante sia che non puoi facilmente confrontare le covarianze da due set di dati con varianze diverse. Ad esempio, se si ha la relazione B = 2 * A e due set di dati, {A1, B1} e {A2, B2}, dove A1 ha una varianza di 0,5 e A2 ha una varianza di 2, allora il sarà molto più grande di c o v ( A 1 , B 1 ) , anche se la relazione è esattamente la stessa. cov(UN2,B2)cov(UN1,B1)
naught101

3
Quindi, in termini semplici, corelazione> covarianza
Karl Morrison,

58

I requisiti di questo tipo di domande mi sembrano un po 'bizzarri. Ecco un concetto / formula matematica , ma voglio parlarne in un contesto completamente privo di simboli matematici. Penso anche che dovrebbe essere affermato che l'attuale algebra necessaria per comprendere le formule, penso, dovrebbe essere insegnata alla maggior parte degli individui prima dell'istruzione superiore (non è necessaria alcuna comprensione dell'algebra matriciale, basterà una semplice algebra).

Quindi, all'inizio invece di ignorare completamente la formula e parlarne in alcuni tipi di analogie magiche ed euristiche, diamo un'occhiata alla formula e proviamo a spiegare i singoli componenti in piccoli passi. La differenza in termini di covarianza e correlazione, quando si osservano le formule, dovrebbe diventare chiara. Considerando che parlando in termini di analogie ed euristiche, sospetto che oscurerebbero due concetti relativamente semplici e le loro differenze in molte situazioni.

Quindi iniziamo con una formula per la covarianza del campione (questi che ho appena preso e adottato da Wikipedia);

1n1i=1n(xix¯)(yiy¯)

Per velocizzare tutti, definiamo esplicitamente tutti gli elementi e le operazioni nella formula.

  • e y i sono ciascuna misure di due attributi separati della stessa osservazionexiyi
  • e ˉ y sono i mezzi (o media) di ciascun attributox¯y¯
  • Per , diciamo solo che questo significa che dividiamo il risultato finale pern-1.1n1n1
  • potrebbe essere un simbolo straniero per alcuni, quindi sarebbe probabilmente utile spiegare questa operazione. È semplicemente la somma di tutti i separati osservazioni, ed n rappresenta il numero totale di osservazioni.i=1nin

A questo punto, potrei introdurre un semplice esempio, per dare un volto agli elementi e alle operazioni per così dire. Così, per esempio, consente solo fare una tabella dove ogni riga corrisponde a un'osservazione (e ed y sono etichettati in modo appropriato). Uno probabilmente renderebbe questi esempi più specifici (ad esempio diciamo che x rappresenta l'età e y rappresenta il peso), ma per la nostra discussione qui non dovrebbe importare.xyxy

x y
---
2 5
4 8
9 3
5 6
0 8

A questo punto se ritieni che l'operazione di somma nella formula potrebbe non essere stata completamente compresa, puoi introdurla di nuovo in un contesto molto più semplice. Di 'solo presente che equivale a dire in questo esempio;i=1n(xi)

  x
 --
  2
  4
  9
  5
+ 0
 --
 20

Ora quel pasticcio dovrebbe essere chiarito, e possiamo farci strada nella seconda parte della formula, . Ora, supponendo che le persone sanno già che cosa la media, ˉ x e ° y rappresentiamo, e direi, essere ipocriti dei miei precedenti commenti nel post, si può solo fare riferimento alla media in termini di semplici euristiche (per esempio al centro della distribuzione). Si può quindi eseguire questo processo un'operazione alla volta. La dichiarazione ( x i - ˉ x )(xix¯)(yiy¯)x¯y¯(xix¯)sta solo esaminando le deviazioni / distanza tra ciascuna osservazione e la media di tutte le osservazioni per quel particolare attributo. Quindi quando un'osservazione è più lontana dalla media, a questa operazione verrà assegnato un valore più elevato. Si può quindi fare riferimento alla tabella di esempio fornita e dimostrare semplicemente l'operazione sul vettore delle osservazioni.x

x x_bar (x - x_bar)
2 4     -2
4 4      0
9 4      5
5 4      1
0 4     -4

L'operazione è la stessa per il vettore , ma solo per il rinforzo puoi presentare anche quell'operazione.y

y y_bar (y - y_bar)
5  6     -1
8  6      2
3  6     -3
6  6      0
8  6      2

(xix¯)(yiy¯)(xix¯)(yio-y¯)

Prendi nota di ciò che accade durante la moltiplicazione, se due osservazioni sono entrambe a grande distanza sopra la media, l'osservazione risultante avrà un valore positivo ancora maggiore (lo stesso vale se entrambe le osservazioni sono a grande distanza sotto la media, moltiplicando due negativi è uguale a positivo). Si noti inoltre che se un'osservazione è alta sopra la media e l'altra è ben al di sotto della media, il valore risultante sarà grande (in termini assoluti) e negativo (poiché un positivo per un negativo equivale a un numero negativo). Infine, nota che quando un valore è molto vicino alla media per entrambe le osservazioni, moltiplicando i due valori si otterrà un piccolo numero. Ancora una volta possiamo presentare questa operazione in una tabella.

(x - x_bar) (y - y_bar)  (x - x_bar)*(y - y_bar)
-2             -1                2
 0              2                0  
 5             -3              -15 
 1              0                0
-4              2               -8

n-1

(x - x_bar)*(y - y_bar)
-----------------------
   2
   0
 -15
   0
+ -8
-----
 -21

-21/(5-1) = -5.25

A questo punto potresti voler rinforzare la provenienza del 5, ma dovrebbe essere semplice come fare riferimento alla tabella e contare il numero di osservazioni (lasciamo di nuovo la differenza tra campione e popolazione ad un'altra volta).

ρ

ρ=Cov(X,y)Vun'r(X)Vun'r(y)

Cov(X,X)=Vun'r(X)). E si applicano tutti gli stessi concetti che hai introdotto con la covarianza (cioè se una serie ha molti valori ben lontani dalla sua media, avrà una varianza elevata). Forse nota qui che una serie non può avere anche una varianza negativa (che dovrebbe logicamente seguire dalla matematica precedentemente presentata).

Vun'r(X)Vun'r(y)Vun'r(X)Vun'r(y)

Capisco in alcune circostanze che questo livello di trattamento non sarebbe appropriato. Il senato ha bisogno del riassunto esecutivo . In tal caso, puoi fare riferimento alla semplice euristica che le persone hanno utilizzato in altri esempi, ma Roma non è stata costruita in un giorno. E al senato che chiede il riassunto esecutivo, se hai così poco tempo forse dovresti semplicemente prendere la mia parola per farlo e rinunciare alle formalità di analogie e punti elenco.


4
COV(X,Y)=E[(X-E[X])(Y-E[Y])]
Xi'an,

14
+1, questo è abbastanza buono. Non sarei così critico nei confronti delle presentazioni concettuali, comunque. Ho lavorato con persone con abbastanza ansia matematica che è probabile che mostrare una formula li perda. Di solito li faccio accelerare con l'intuizione prima, e poi passo attraverso la matematica in modo semplice e completo (proprio come fai qui) in seguito . In questo modo, stanno solo imparando come la matematica rappresenta ciò che già sanno, e se abbandonano mentalmente, hanno ancora imparato le grandi idee. Come punto tangenziale, lavoro attraverso la matematica in Excel, che trovo molto buona per questo.
gung

2
NN-1(Xio-X¯)(yio-y¯)ρrqui , ad es.
gung

Grazie @gung, ho cambiato il refuso nella prima formula e poi per la correlazione ho preso la radice quadrata delle varianze moltiplicate (invece di definire la deviazione standard). Usando rho contro un altro simbolo, non mi sento troppo forte in entrambi i modi. Se stessi insegnando e avessi un libro di testo, probabilmente vorrei solo conformarmi al testo. Spero che un altro simbolo greco non causi caos!
Andy W,

1
Se potessi votare la tua risposta 100 volte lo farei. Che spiegazione terribilmente lucida!
Julian A.

10

Vun'r[X]Vun'r[y]

Cioè, la correlazione è semplicemente una rappresentazione della covarianza, quindi il risultato deve essere compreso tra -1 (perfettamente inversamente correlato) e +1 (perfettamente correlato positivamente), osservando che un valore vicino allo zero significa che due variabili non sono correlate.

La covarianza non ha limiti e manca di un contesto rispetto ad altre covarianze. Normalizzando / regolando / standardizzando le covarianze in una correlazione, i set di dati possono essere confrontati più facilmente.

Come puoi immaginare, ci sono diversi modi in cui una statistica (come la covarianza) può essere normalizzata / standardizzata. La formula matematica per la relazione tra correlazione e covarianza riflette semplicemente l'uso della convenzione da parte degli statistici (vale a dire, adattandosi in base alle loro deviazioni standard):

r=cov(X,y)Vun'r[X]Vun'r[y]

5

Se hai familiarità con l'idea di centrare e standardizzare, x-xbar è centrare x nella sua media. Lo stesso vale per y. Quindi la covarianza centra semplicemente i dati. La correlazione, tuttavia, non solo centra i dati ma scala anche usando la deviazione standard (standardizzare). La moltiplicazione e la somma sono il punto-prodotto dei due vettori e indica quanto paralleli questi due vettori si confrontino tra loro (la proiezione di un vettore sull'altro). La divisione di (n-1) o prendendo il valore atteso è in scala per il numero di osservazioni. Pensieri?



-3

La correlazione viene ridimensionata in modo da essere compresa tra -1 e +1 in base alla presenza di una correlazione positiva o negativa ed è senza dimensioni. La covarianza tuttavia varia da zero, nel caso di due variabili indipendenti, a Var (X), nel caso in cui le due serie di dati siano uguali. Le unità di COV (X, Y) sono le unità di X volte le unità di Y.


6
La covarianza può essere negativa, quindi non è limitata a 0. Non mi è nemmeno chiaro cosa intendi con la tua ultima frase The units of COV(X,Y) are the units of X times the units of Y., ti interessa elaborare?
Andy W,

@AndyW la parte delle unità non è chiara dalla definizione? Cov(X,Y)=E[(X-E[X])(Y-E[Y])]

1
@ naught101, Le unità passano attraverso? Il mio commento iniziale a Nagaraj fu di chiedere ulteriore chiarezza, poiché affermazioni ambigue come quella citata che affermerei non sono utili a nessuno. Quindi, perché non possiamo interpretare la covarianza come "le unità di x moltiplicate per le unità di y", perché non è quello che è. Un'affermazione potenzialmente più corretta (per la covarianza del campione) sarebbe che è la " media dei prodotti delle deviazioni medie ". cont ...
Andy W,

1
Ora, le deviazioni medie non sono certamente le stesse delle unità originali e la statistica risultante per la covarianza non dipende semplicemente dalla media e dalla varianza degli attributi originali. La covarianza, in sé e per sé, non dice nulla senza conoscere la varianza degli attributi originali.
Andy W,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.