Come spiegheresti la covarianza a qualcuno che capisce solo la media?


207

... supponendo che io sia in grado di aumentare le loro conoscenze sulla varianza in modo intuitivo ( Comprensione intuitiva della "varianza" ) o dicendo: è la distanza media dei valori dei dati dalla "media" - e poiché la varianza è quadrata unità, prendiamo la radice quadrata per mantenere le stesse unità e questo si chiama deviazione standard.

Supponiamo che questo sia articolato e (si spera) compreso dal "ricevitore". Ora che cos'è la covarianza e come si spiegherebbe in un inglese semplice senza l'uso di termini / formule matematiche? (Cioè, spiegazione intuitiva.;)

Nota: conosco le formule e la matematica alla base del concetto. Voglio essere in grado di "spiegare" lo stesso in modo facilmente comprensibile, senza includere la matematica; cioè, cosa significa "covarianza"?


1
@ Xi'an - 'come' lo definiresti esattamente tramite una semplice regressione lineare ? Mi piacerebbe davvero sapere ...
Dottorato di ricerca

3
Supponendo che tu abbia già un diagramma a dispersione delle tue due variabili, x vs. y, con origine a (0,0), disegna semplicemente due linee in x = media (x) (verticale) e y = media (x) (orizzontale): usando questo nuovo sistema di coordinate (l'origine è in (media (x), media (y)), metti un segno "+" nei quadranti in alto a destra e in basso a sinistra, un segno "-" negli altri due quadranti; hai ottenuto il segno della covarianza, che è fondamentalmente ciò che ha detto @Peter . Ridimensionare le unità x e y (da SD) porta a un riassunto più interpretabile, come discusso nel thread che ne segue .
chl

1
@chl - potresti per favore pubblicarlo come risposta e magari usare la grafica per rappresentarlo!
Dottorato di ricerca il

Ho trovato il video su questo sito Web per aiutarmi mentre preferisco le immagini alle spiegazioni astratte. Sito web con video In particolare questa immagine :! [Inserisci la descrizione dell'immagine qui ] ( i.stack.imgur.com/xGZFv.png )
Karl Morrison,

Risposte:


375

A volte possiamo "aumentare la conoscenza" con un approccio insolito o diverso. Vorrei che questa risposta fosse accessibile ai bambini della scuola materna e che mi divertissi un po ', così tutti tirano fuori i tuoi pastelli!

Dati dati accoppiati (X,y) , disegna il loro diagramma a dispersione. (Gli studenti più giovani potrebbero aver bisogno di un insegnante per produrlo per loro. :-) Ogni coppia di punti (Xio,yio) , (Xj,yj) in quella trama determina un rettangolo: è il rettangolo più piccolo, i cui lati sono paralleli agli assi, contenenti quei punti. Pertanto i punti si trovano negli angoli in alto a destra e in basso a sinistra (una relazione "positiva") o sono negli angoli in alto a sinistra e in basso a destra (una relazione "negativa").

Disegna tutti i possibili rettangoli. Colorali in modo trasparente, rendendo i rettangoli positivi rossi (diciamo) e i rettangoli negativi "anti-rosso" (blu). In questo modo, ovunque i rettangoli si sovrappongano, i loro colori sono esaltati quando sono uguali (blu e blu o rosso e rosso) o annullati quando sono diversi.

Rettangoli positivi e negativi

( In questa illustrazione di un rettangolo positivo (rosso) e negativo (blu), la sovrapposizione dovrebbe essere bianca; sfortunatamente, questo software non ha un vero colore "anti-rosso". La sovrapposizione è grigia, quindi scurirà il trama, ma nel complesso la quantità netta di rosso è corretta. )

Ora siamo pronti per la spiegazione della covarianza.

La covarianza è la quantità netta di rosso nella trama (trattando il blu come valori negativi).

Ecco alcuni esempi con 32 punti binormali estratti dalle distribuzioni con le covarianze date, ordinate dal più negativo (il più blu) al più positivo (il più rosso).

Diagrammi di covarianza, aggiornati nel 2019

Sono disegnati su assi comuni per renderli comparabili. I rettangoli sono leggermente delineati per aiutarti a vederli. Questa è una versione aggiornata (2019) dell'originale: utilizza un software che annulla correttamente i colori rosso e ciano in rettangoli sovrapposti.

Deduciamo alcune proprietà della covarianza. La comprensione di queste proprietà sarà accessibile a chiunque abbia effettivamente disegnato alcuni rettangoli. :-)

  • Bilinearità. Poiché la quantità di rosso dipende dalla dimensione della trama, la covarianza è direttamente proporzionale alla scala sull'asse xe alla scala sull'asse y.

  • Correlazione. La covarianza aumenta quando i punti si avvicinano a una linea inclinata verso l'alto e diminuisce quando i punti si avvicinano a una linea inclinata verso il basso. Questo perché nel primo caso la maggior parte dei rettangoli sono positivi e nel secondo caso, la maggior parte sono negativi.

  • Relazione con associazioni lineari. Poiché le associazioni non lineari possono creare miscele di rettangoli positivi e negativi, portano a covarianze imprevedibili (e non molto utili). Le associazioni lineari possono essere completamente interpretate mediante le due precedenti caratterizzazioni.

  • Sensibilità ai valori anomali. Un outlier geometrico (un punto in piedi lontano dalla massa) creerà molti grandi rettangoli in associazione con tutti gli altri punti. Da solo può creare una quantità netta positiva o negativa di rosso nel quadro generale.

Per inciso, questa definizione di covarianza differisce dalla solita solo per una costante universale di proporzionalità (indipendente dalla dimensione del set di dati). I matematicamente inclini non avranno problemi a eseguire la dimostrazione algebrica che la formula qui fornita è sempre il doppio della solita covarianza.


92
+1 Wow. Questo funziona anche per spiegare la covarianza a coloro che già pensavano di sapere cosa fosse.
Aaron,

7
+1 Mi piace molto leggere la tua risposta.
Disegnerò

18
Ora, se solo tutti i concetti statistici introduttivi potessero essere presentati agli studenti in questo modo lucido ...
MannyG

4
Questo è bellissimo. E molto molto chiaro.
Benjamin Mako Hill,

4
@fcoppens In effetti, c'è una spiegazione tradizionale che procede come suggerisci. Ci ho pensato perché non volevo introdurre un'idea che non fosse necessaria, vale a dire costruire il centroide . Ciò renderebbe la spiegazione inaccessibile al bambino di cinque anni con una scatola di pastelli. Alcune delle conclusioni che ho tratto alla fine non sarebbero neppure immediate. Ad esempio, non sarebbe più così ovvio che la covarianza sia sensibile a determinati tipi di valori anomali. (X¯,y¯)
whuber

61

Per approfondire il mio commento, che ho usato per insegnare la covarianza come una misura del (media) co-variazione tra due variabili, dicono e y .Xy

È utile ricordare la formula di base (semplice da spiegare, non è necessario parlare di aspettative matematiche per un corso introduttivo):

COV(X,y)=1nΣio=1n(Xio-X¯)(yio-y¯)

in modo da vedere chiaramente che ogni osservazione, , potrebbe contribuire positivamente o negativamente alla covarianza, a seconda del prodotto della loro deviazione dalla media delle due variabili, · x e ˉ y . Si noti che qui non parlo di grandezza, ma semplicemente del segno del contributo dell'otta osservazione.(xi,yi)x¯y¯

Questo è ciò che ho rappresentato nei seguenti diagrammi. I dati artificiali sono stati generati usando un modello lineare (sinistra, ; destra, y = 0,1 x + ε , dove ε sono stati disegnati da una distribuzione gaussiana con media zero e SD = 2 , e x da una distribuzione uniforme su l'intervallo [ 0 , 20 ] ).y=1.2x+εy=0.1x+εεSD=2X[0,20]

inserisci qui la descrizione dell'immagine

Le barre verticali e orizzontali rappresentano la media di ed y , rispettivamente. Ciò significa che invece di "guardare singole osservazioni" dall'origine ( 0 , 0 ) , possiamo farlo da ( ˉ x , ˉ y ) . Ciò equivale a una traduzione sull'asse xe y. In questo nuovo sistema di coordinate, ogni osservazione che si trova nel quadrante in alto a destra o in basso a sinistra contribuisce positivamente alla covarianza, mentre le osservazioni situate negli altri due quadranti contribuiscono negativamente ad esso. Nel primo caso (a sinistra), la covarianza è uguale a 30.11 e la distribuzione nei quattro quadranti è riportata di seguito:Xy(0,0)(X¯,y¯)

   +  -
+ 30  2
-  0 28

Xioyioy¯XyB=Cov(X,y)/Var(X)

Xio

   +  -
+ 18 14
- 12 16

Xioyio

Xy(X/10,y)(X,y/10)Xy(X,y)(X¯,y¯)Xy


28

La covarianza è una misura di quanto una variabile sale quando l'altra sale.


1
È sempre nella "stessa" direzione? Inoltre, si applica anche alle relazioni inverse (ovvero, quando uno sale su l'altro scende)?
Dottorato di ricerca

4
@nupul Bene, l'opposto di "su" è "giù" e l'opposto di "positivo" è "negativo". Ho provato a dare una risposta di una frase. Il tuo è molto più completo. Anche il tuo "come cambiano insieme due variabili" è più completo, ma, credo, un po 'più difficile da capire.
Peter Flom

1
+1 per inserirla in una singola, semplice frase, ma quella correlazione non è? Voglio dire, conosco una maggiore cov => una maggiore corr, ma con quella frase mi aspetterei qualcosa come "80%" come risposta, che corrisponde a corr = 0,8. Cov non descrive anche la varianza all'interno dei dati? vale a dire. "La covarianza è proporzionale a quanto aumenta una variabile quando l'altra sale, e anche proporzionale alla diffusione dei dati in entrambe le variabili" o qualcosa del genere?
naught101,

4
Proprio così, Peter, ecco perché @ naught101 ha fatto quel commento: la tua descrizione suona come una velocità di cambiamento, le cui unità saranno quindi [unità di una variabile] / [unità dell'altra variabile] (se la interpretiamo come una derivata ) o saranno solo [unità di una variabile] (se interpretiamo come una differenza pura). Questi non sono né covarianza (la cui unità di misura è il prodotto delle unità per le due variabili) né correlazione (che è senza unità).
whuber

1
XY1,YXY

12

Io sto rispondendo alla mia domanda, ma ho pensato che sarebbe stato grande per le persone che arrivano in questo post per controllare alcuni delle spiegazioni in questa pagina .

Sto parafrasando una delle risposte molto ben articolate (da un utente 'Zhop'). Lo sto facendo nel caso in cui quel sito si chiuda o la pagina venga rimossa quando qualcuno eoni da ora accede a questo post;)

La covarianza è una misura di quante due variabili cambiano insieme. Confronta questo con la varianza, che è solo l'intervallo su cui varia una misura (o variabile).

Nello studio dei modelli sociali, potresti ipotizzare che le persone più ricche siano probabilmente più istruite, quindi proveresti a vedere quanto strettamente le misure di ricchezza e istruzione stiano insieme. Utilizzerai una misura di covarianza per determinarlo.

...

Non sono sicuro di cosa intendi quando chiedi come si applica alle statistiche. È una misura insegnata in molte classi di statistiche. Intendevi quando dovresti usarlo?

Lo usi quando vuoi vedere quante due o più variabili cambiano l'una rispetto all'altra.

Pensa alle persone in una squadra. Guarda come variano in base alla posizione geografica l'una rispetto all'altra. Quando la squadra gioca o si allena, la distanza tra i singoli membri è molto piccola e si direbbe che si trovino nella stessa posizione. E quando la loro posizione cambia, cambia per tutte le persone insieme (diciamo, viaggiando su un autobus per una partita). In questa situazione, vorremmo dire che hanno un alto livello di covarianza. Ma quando non stanno giocando, è probabile che il tasso di covarianza sia piuttosto basso, perché vanno tutti in posti diversi a velocità diverse.

Quindi puoi prevedere la posizione di un membro della squadra, in base alla posizione di un altro membro della squadra quando si esercitano o giocano una partita con un alto grado di precisione. La misurazione della covarianza sarebbe prossima a 1, credo. Ma quando non si stanno esercitando o giocando, avrai una possibilità molto più piccola di prevedere la posizione di una persona, in base alla posizione di un membro della squadra. Sarebbe vicino allo zero, probabilmente, anche se non a zero, poiché a volte i membri del team saranno amici e potrebbero andare in posti insieme nel loro tempo libero.

Tuttavia, se si selezionassero casualmente individui negli Stati Uniti e si tentasse di utilizzarne uno per prevedere le posizioni dell'altro, probabilmente si scoprirà che la covarianza era zero. In altre parole, non esiste assolutamente alcuna relazione tra la posizione di una persona selezionata casualmente negli Stati Uniti e quella di un'altra.

Aggiungendone un altro (di "CatofGrey") che aiuta ad aumentare l'intuizione:

Nella teoria della probabilità e nelle statistiche, la covarianza è la misura di quante due variabili casuali variano insieme (in quanto distinte dalla varianza, che misura quanto varia una singola variabile).

Se due variabili tendono a variare insieme (cioè quando una di esse è al di sopra del suo valore atteso, anche l'altra variabile tende a essere al di sopra del suo valore atteso), la covarianza tra le due variabili sarà positiva. D'altra parte, se una di esse è al di sopra del suo valore atteso e l'altra variabile tende a essere al di sotto del suo valore atteso, la covarianza tra le due variabili sarà negativa.

Questi due insieme mi hanno fatto capire la covarianza come non l'avevo mai capito prima! Semplicemente stupefacente!!


15
Sebbene queste descrizioni siano qualitativamente suggestive, purtroppo sono incomplete: non distinguono la covarianza dalla correlazione (la prima descrizione sembra confondere le due, in realtà), né mettono in luce l'assunto fondamentale della co-variazione lineare . Inoltre, nessuno dei due affronta l'aspetto importante che la covarianza dipende (linearmente) dalla scala di ciascuna variabile.
whuber

@whuber - d'accordo! E quindi non ho segnato la mia come risposta :) (non ancora;)
Dottorato di ricerca

12

Mi piace molto la risposta di Whuber, quindi ho raccolto alcune risorse in più. La covarianza descrive sia la distanza di diffusione delle variabili, sia la natura della loro relazione.

La covarianza usa i rettangoli per descrivere quanto è distante un'osservazione dalla media su un grafico a dispersione:

  • Se un rettangolo ha lati lunghi e una larghezza elevata o lati corti e una larghezza corta, fornisce la prova che le due variabili si muovono insieme.

  • Se un rettangolo ha due lati relativamente lunghi per quelle variabili e due lati relativamente corti per l'altra variabile, questa osservazione dimostra che le variabili non si muovono molto bene insieme.

  • Se il rettangolo si trova nel 2 ° o nel 4 ° quadrante, quando una variabile è maggiore della media, l'altra è inferiore alla media. Un aumento di una variabile è associato a una diminuzione dell'altra.

Ho trovato una bella visualizzazione di questo su http://sciguides.com/guides/covariance/ , Spiega cos'è la covarianza se si conosce solo la media.


7
+1 Bella spiegazione (in particolare quel sommario introduttivo di una frase). Il link è interessante Dal momento che non ha alcun archivio sulla macchina Wayback , probabilmente è nuovo. Poiché è così strettamente parallelo alla mia risposta (di tre anni), fino alla scelta del rosso per le relazioni positive e del blu per le relazioni negative, sospetto che sia un derivato (non attribuito) del materiale su questo sito.
whuber

4
Il link "visualizzazione interessante" è morto ....
whuber

1
@MSIS Questo non è possibile capire, perché ci sono un numero molto grande di possibili distribuzioni sul cerchio. Ma se ti riferisci alla distribuzione uniforme , non c'è nulla da calcolare, perché (come ricordo ricordando nel tuo thread su stats.stackexchange.com/q/414365/919 ) il coefficiente di correlazione deve essere uguale al proprio negativo, QED.
whuber

1
XX0XX2X1,XX2:-11
whuber

1
α,un'<αB((B-un')mod2π)/(2π).

10

Ecco un altro tentativo di spiegare la covarianza con una foto. Ogni pannello nella figura seguente contiene 50 punti simulati da una distribuzione bivariata con correlazione tra x & y di 0,8 e varianze come mostrato nelle etichette di riga e colonna. La covarianza è mostrata nell'angolo in basso a destra di ciascun pannello.

Diverse covarianze, tutte con correlazione = 0,8

Chiunque sia interessato a migliorare questo ... ecco il codice R:

library(mvtnorm)

rowvars <- colvars <- c(10,20,30,40,50)

all <- NULL
for(i in 1:length(colvars)){
  colvar <- colvars[i]
  for(j in 1:length(rowvars)){
    set.seed(303)  # Put seed here to show same data in each panel
    rowvar <- rowvars[j]
    # Simulate 50 points, corr=0.8
    sig <- matrix(c(rowvar, .8*sqrt(rowvar)*sqrt(colvar), .8*sqrt(rowvar)*sqrt(colvar), colvar), nrow=2)
    yy <- rmvnorm(50, mean=c(0,0), sig)
    dati <- data.frame(i=i, j=j, colvar=colvar, rowvar=rowvar, covar=.8*sqrt(rowvar)*sqrt(colvar), yy)
    all <- rbind(all, dati)
  }
}
names(all) <- c('i','j','colvar','rowvar','covar','x','y')
all <- transform(all, colvar=factor(colvar), rowvar=factor(rowvar))
library(latticeExtra)
useOuterStrips(xyplot(y~x|colvar*rowvar, all, cov=all$covar,
                      panel=function(x,y,subscripts, cov,...){
                        panel.xyplot(x,y,...)
                        print(cor(x,y))
                        ltext(14,-12, round(cov[subscripts][1],0))
                      }))

10

Ho adorato la risposta di @whuber - prima avevo solo una vaga idea nella mia mente di come potesse essere visualizzata la covarianza, ma quelle trame rettangolari sono geniali.

Tuttavia, poiché la formula per la covarianza coinvolge la media e la domanda originale dell'OP affermava che il "ricevitore" capisce il concetto della media, ho pensato che avrei avuto una crepa nell'adattare i grafici rettangolari di @ whuber per confrontare ogni punto di dati con il significa xey, poiché questo rappresenta di più quello che sta succedendo nella formula della covarianza. Pensavo che alla fine sembrasse abbastanza intuitivo: "Grafici di covarianza per variabili con diverse correlazioni"

Il punto blu al centro di ogni grafico è la media di x (x_mean) e la media di y (y_mean).

I rettangoli stanno confrontando il valore di x - x_mean e y - y_mean per ciascun punto dati.

Il rettangolo è verde quando:

  • sia x che y sono maggiori dei rispettivi mezzi
  • entrambi xey sono inferiori ai rispettivi mezzi

Il rettangolo è rosso quando:

  • x è maggiore di x_mean ma y è minore di y_mean
  • x è minore di x_mean ma y è maggiore di y_mean

La covarianza (e la correlazione) può essere sia fortemente negativa che fortemente positiva. Quando il grafico è dominato da un colore in più rispetto all'altro, significa che i dati seguono principalmente uno schema coerente.

  • Se il grafico ha molto più verde del rosso, significa che y generalmente aumenta quando aumenta x.
  • Se il grafico ha molto più rosso che verde, significa che y generalmente diminuisce quando aumenta x.
  • Se il grafico non è dominato da un colore o dall'altro, significa che non c'è molto di un modello a come x e y si relazionano tra loro.

Il valore effettivo della covarianza per due diverse variabili x e y, è fondamentalmente la somma di tutta l'area verde meno tutta l'area rossa, quindi divisa per il numero totale di punti dati - effettivamente il verde medio-rosso-rosso del grafico .

Come suona / guarda?


3

La varianza è il grado in cui una variabile casuale cambia rispetto al suo valore atteso A causa della natura stocastica del processo sottostante, la variabile casuale rappresenta.

La covarianza è il grado in cui due diverse variabili casuali cambiano l'una rispetto all'altra. Ciò può accadere quando le variabili casuali sono guidate dallo stesso processo sottostante o dai suoi derivati. Entrambi i processi rappresentati da queste variabili casuali si stanno influenzando a vicenda, oppure è lo stesso processo ma una delle variabili casuali è derivata dall'altra.


2

Spiegherei semplicemente la correlazione che è piuttosto intuitiva. Direi "La correlazione misura la forza della relazione tra due variabili X e Y. La correlazione è compresa tra -1 e 1 e sarà vicina a 1 in valore assoluto quando la relazione è forte. La covarianza è solo la correlazione moltiplicata per le deviazioni standard di le due variabili. Quindi mentre la correlazione è senza dimensioni, la covarianza è nel prodotto delle unità per la variabile X e la variabile Y.


10
Ciò sembra inadeguato perché non si parla di linearità. X e Y potrebbero avere una forte relazione quadratica ma avere una correlazione pari a zero.
mark999,

0

Due variabili che avrebbero un'elevata covarianza positiva (correlazione) sarebbero il numero di persone in una stanza e il numero di dita che si trovano nella stanza. (Con l'aumentare del numero di persone, ci aspettiamo che aumenti anche il numero di dita.)

Qualcosa che potrebbe avere una covarianza negativa (correlazione) sarebbe l'età di una persona e il numero di follicoli piliferi sulla testa. Oppure, il numero di brufoli sul viso di una persona (in una determinata fascia di età) e quante date hanno in una settimana. Ci aspettiamo che le persone con più anni abbiano meno peli e le persone con più acne abbiano meno date. Queste sono negativamente correlate.


2
La covarianza non è necessariamente intercambiabile con la correlazione: la prima dipende molto dall'unità. La correlazione è un numero compreso tra -1 e 1 uno scalare meno unità che rappresenta la 'forza' della covarianza IMO e non è chiaro dalla tua risposta
PhD

Sottovalutato poiché la risposta implica che la covarianza e la correlazione possono essere utilizzate in modo intercambiabile.
sapo_cosmico,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.