Intuizione sulla definizione della covarianza


11

Stavo cercando di capire meglio la covarianza di due variabili casuali e capire come la prima persona che ci pensava, arrivasse alla definizione che viene abitualmente utilizzata nelle statistiche. Sono andato su Wikipedia per capirlo meglio. Dall'articolo, sembra che la buona misura o quantità candidata per dovrebbe avere le seguenti proprietà:Cov(X,Y)

  1. Dovrebbe avere un segno positivo quando due variabili casuali sono simili (cioè quando una aumenta l'altra fa e quando una diminuisce anche l'altra).
  2. Vogliamo anche che abbia un segno negativo quando due variabili casuali sono opposte in modo simile (cioè quando una aumenta l'altra variabile casuale tende a diminuire)
  3. Infine, vogliamo che questa quantità di covarianza sia zero (o probabilmente estremamente piccola?) Quando le due variabili sono indipendenti l'una dall'altra (cioè non coincidono l'una rispetto all'altra).

Dalle proprietà sopra, vogliamo definire . La mia prima domanda è, non è del tutto ovvio per me il motivo per cui soddisfa tali proprietà. Dalle proprietà che abbiamo, mi sarei aspettato più di un'equazione "derivata" come il candidato ideale. Ad esempio, qualcosa di più simile a "se il cambiamento in X positivo, allora anche il cambiamento in Y dovrebbe essere positivo". Inoltre, perché prendere la differenza dalla media è la cosa "corretta" da fare?Cov(X,Y)Cov(X,Y)=E[(XE[X])(YE[Y])]

Una domanda più tangenziale, ma comunque interessante, esiste una definizione diversa che avrebbe potuto soddisfare quelle proprietà e sarebbe stata comunque significativa e utile? Lo sto chiedendo perché sembra che nessuno si stia chiedendo perché stiamo usando questa definizione in primo luogo (è come se fosse, è "sempre stato così", che secondo me è una ragione terribile e ostacola la scienza e curiosità matematica e pensiero). La definizione accettata è la definizione "migliore" che potremmo avere?


Questi sono i miei pensieri sul perché la definizione accettata abbia senso (sarà solo un argomento intuitivo):

Sia una differenza per la variabile X (ovvero è cambiata da un valore ad un altro valore in qualche momento). Allo stesso modo per define .ΔXΔY

Per un'istanza nel tempo, possiamo calcolare se sono correlati o meno facendo:

sign(ΔXΔY)

Questo è abbastanza carino! Per un esempio nel tempo, soddisfa le proprietà che desideriamo. Se entrambi aumentano insieme, quindi la maggior parte delle volte, la quantità di cui sopra dovrebbe essere positiva (e allo stesso modo quando saranno opposti in modo simile, sarà negativa, perché i avranno segni opposti).Delta

Ma questo ci dà solo la quantità che desideriamo per un'istanza nel tempo, e dal momento che sono rv potremmo sovralimentarci se decidiamo di basare la relazione di due variabili sulla base di 1 sola osservazione. Allora perché non aspettarsi questo per vedere il prodotto "medio" delle differenze.

sign(E[ΔXΔY])

Che dovrebbe catturare in media qual è la relazione media come definita sopra! Ma l'unico problema che questa spiegazione ha è, da cosa misuriamo questa differenza? Che sembra essere affrontato misurando questa differenza dalla media (che per qualche ragione è la cosa giusta da fare).

Immagino che il problema principale che ho con la definizione sia prendere la differenza dalla media . Non riesco a giustificarlo ancora.


L'interpretazione per il segno può essere lasciata a una domanda diversa, poiché sembra essere un argomento più complicato.


2
Il punto di partenza potrebbe essere il concetto o l'intuizione del prodotto incrociato (la covarianza è solo l'estensione di esso). Se abbiamo due serie di numeri X e Y della stessa lunghezza e definiamo il prodotto incrociato sommato come Somma (Xi * Yi), viene massimizzato se entrambe le serie sono state ordinate nello stesso ordine e viene ridotta a icona se una le serie sono state ordinate in ordine crescente e l'altra in modo discendente.
ttnphns,

La differenza dalla media non è la questione fondamentale. È solo la grandezza che conta, la differenza dall'origine; per alcuni motivi è naturale e conveniente mettere l'origine nella media.
ttnphns,

@ttnphns stai dicendo che se covary insieme, allora la covarianza dovrebbe essere "massimizzata" e se covary opposto dovrebbe essere il più negativo possibile? (cioè minimizzato) Perché non viene definito quindi come l'attesa del prodotto incrociato?
Charlie Parker,

La covarianza è naturale per le variabili senza origine intrinseca. Quindi calcoliamo la media come origine (la media ha belle proprietà non relative al tema dell'associazione, quindi viene generalmente scelta). Se l'origine è inerente e significativa, è ragionevole attenersi ad essa, quindi la "covarianza" (co-sfogo) non sarà simmetrica, ma a chi importa?
ttnphns,

1
Questa risposta fornisce un'intuizione molto bella relativa alla covarianza.
Glen_b

Risposte:


10

(X,Y)

  1. Se sia X che Y sono più grandi delle rispettive medie, diciamo che la coppia è simile e quindi mettiamo un numero positivo nello stack.
  2. Se sia X che Y sono più piccoli delle rispettive medie, diciamo che la coppia è simile e mettiamo un numero positivo nello stack.
  3. Se X è più grande della sua media e Y è più piccola della sua media, diciamo che la coppia è diversa e mette un numero negativo nello stack.
  4. Se X è più piccolo della sua media e Y è più grande della sua media, diciamo che la coppia è diversa e mette un numero negativo nello stack.

Quindi, per ottenere una misura complessiva della (dis-) somiglianza di X e Y sommiamo tutti i valori dei numeri nello stack. Una somma positiva suggerisce che le variabili si muovono nella stessa direzione contemporaneamente. Una somma negativa suggerisce che le variabili si muovono in direzioni opposte il più delle volte. Una somma zero suggerisce che conoscere la direzione di una variabile non ti dice molto sulla direzione dell'altra.

È importante pensare a "più grande della media" piuttosto che a "grande" (o "positivo") perché due variabili non negative verrebbero quindi giudicate simili (ad esempio, le dimensioni del prossimo incidente d'auto sull'M42 e il numero di biglietti acquistati alla stazione ferroviaria di Paddington domani).

La formula della covarianza è una formalizzazione di questo processo:

Cov(X,Y)=E[(XE[X])(YE[Y])]

Usando la distribuzione di probabilità piuttosto che la simulazione Monte Carlo e specificando la dimensione del numero che abbiamo messo in pila.


Caspita, questa è un'ottima risposta. Solo un'ultima cosa, ti dispiace aggiungere ulteriori dettagli sulla giustificazione sul perché deve essere la differenza dalla media ? Perché non qualche altro valore? Perché ha senso? Penso che sia la cosa principale che mi sta bloccando sull'interiorizzazione completa di questa definizione. Grazie a proposito!
Charlie Parker,

Grazie. Supponiamo che ci siano due grandi camion in due paesi diversi. Ora i grandi camion tendono a trasportare grandi carichi. Se aggiungessimo un numero positivo allo stack ogni volta che ogni camion trasportava un grosso carico finiremmo per dire che il comportamento dei due camion era molto simile. Ma in realtà la dimensione del carico trasportato da un camion non è correlata alla dimensione del carico trasportato dall'altro in un determinato momento. Capita solo di essere entrambi grandi camion. Quindi la nostra misura di somiglianza non sarebbe utile. Ecco perché dobbiamo pensare a "più grande della media".
congetture

Mi dispiace che sia un po 'tardi, ma ho deciso di rivedere questo argomento e ho ancora una domanda sul perché sia ​​la differenza dalla media. La differenza dai rispettivi mezzi è importante perché ogni variabile casuale X e Y potrebbe provenire da scale diverse? cioè avere un'idea di cosa sia "grande", è diverso a seconda della scala di base che sono. Quindi per superare questo problema di scala lo confrontiamo con i loro rispettivi mezzi?
Charlie Parker,

1

Ecco il mio modo intuitivo di guardarlo senza equazioni.

  1. È una generalizzazione della varianza per dimensioni superiori. La motivazione probabilmente deriva dal tentativo di descrivere come si comportano i dati. Per il primo ordine, abbiamo la sua posizione - la media. Al secondo ordine, abbiamo la dispersione: la covarianza.

    Immagino che il problema principale che ho con la definizione sia prendere la differenza dalla media. Non riesco a giustificarlo ancora.

    la dispersione viene valutata in relazione al centro della distribuzione. La definizione più elementare della varianza è la "deviazione media dalla media". quindi, devi sottrarre la media anche nel caso della Covarianza.

  2. Un'altra motivazione primaria che viene in mente è la necessità di definire un modo per misurare la distanza tra variabili casuali. La distanza di Mahalanobis e la Covarianza vanno di pari passo: data una distribuzione gaussiana e altri due campioni che hanno una distanza euclidea uguale alla media di distribuzione. Se ti chiedessi quale dei campioni è più probabile che sia un outlier che non è stato tratto dalla distribuzione gaussiana, la distanza euclidea non lo farà. La distanza di Mahalanobis ha una differenza notevole rispetto alla distanza euclidea: tiene conto della dispersione (covarianza) della distribuzione. Ciò consente di generalizzare la distanza da variabili casuali.


1
  1. Infine, vogliamo che questa quantità di covarianza sia zero (o probabilmente estremamente piccola?) Quando le due variabili sono indipendenti l'una dall'altra (cioè non coincidono l'una rispetto all'altra).

(12)XYE[XY]E[XY]=14X^=1000XY^=1000YE[X^Y^]=250,000(X,Y)=E[(XE[X])(YE[Y])]

  1. Vogliamo anche che abbia un segno negativo quando due variabili casuali sono opposte in modo simile (cioè quando una aumenta l'altra variabile casuale tende a diminuire)

XY=1XE[XY]=0(X,Y)=E[(XE[X])(YE[Y])]

  1. Dovrebbe (sic) avere un segno positivo quando due variabili casuali sono simili (vale a dire quando una aumenta l'altra fa e quando una diminuisce anche l'altra).

XY=X1E[XY](X,Y)=E[(XE[X])(YE[Y])] dà un valore positivo proprio come lo vuoi tu.

X=Y


1

Mi chiedevo la stessa domanda e l'intuizione data dalle congetture mi ha aiutato. Per visualizzare l'intuizione, ho preso due vettori casuali normali, xey, ho tracciato il grafico a dispersione e colorato ogni punto in base al prodotto delle loro deviazioni dai rispettivi mezzi (blu per valori positivi, rosso per negativo).

Come si evince dalla trama, il prodotto è più positivo nei quadranti in alto a destra e in basso a sinistra, mentre è più negativo nei quadranti in basso a destra e in alto a sinistra. L'effetto della somma dei prodotti comporterebbe 0, poiché i punti blu annullano quelli rossi.

Ma puoi vedere che se rimuoviamo i punti rossi, i dati rimanenti mostrano una relazione positiva tra loro, che viene convalidata dalla somma positiva dei prodotti (ovvero la somma dei punti blu).

inserisci qui la descrizione dell'immagine


0

nello spazio vettoriale delle variabili casuali è ragionevole definire il quadrato della distanza tra due variabili casuali xey con E {(xy) ^ 2} ora rispetto a questa definizione del prodotto del punto di distanza o la relazione delle variabili casuali sarà E {xy} che è così simile alla definizione di covarianza eccetto i termini -E {x} e -E {y} che sono per tipo di normalizzazione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.