Significa centrare riduce la covarianza?


11

Supponendo che io abbia due variabili casuali non indipendenti e che voglia ridurre la covarianza tra loro il più possibile senza perdere troppo "segnale", significa centrare l'aiuto? Ho letto da qualche parte che significa che il centraggio riduce la correlazione di un fattore significativo, quindi sto pensando che dovrebbe fare lo stesso per la covarianza.

Risposte:


30

Se e sono variabili casuali e e sono costanti, quindi centratura è il caso speciale e , quindi la centratura non influisce sulla covarianza.XYab

Cov(X+a,Y+b)=E[(X+aE[X+a])(Y+bE[Y+b])]=E[(X+aE[X]E[a])(Y+bE[Y]E[b])]=E[(X+aE[X]a)(Y+bE[Y]b)]=E[(XE[X])(YE[Y])]=Cov(X,Y).
a=E[X]b=E[Y]


Inoltre, poiché la correlazione è definita come possiamo vedere che quindi in particolare la correlazione non è influenzata neanche dal centraggio.

Corr(X,Y)=Cov(X,Y)Var(X)Var(Y),
Corr(X+a,Y+b)=Cov(X+a,Y+b)Var(X+a)Var(Y+b)=Cov(X,Y)Var(X)Var(Y),


Questa era la versione della storia della popolazione. La versione di esempio è la stessa: se utilizziamo come stima della covarianza tra e da un campione associato , quindi

Cov^(X,Y)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)
XY(X1,Y1),,(Xn,Yn)
Cov^(X+a,Y+b)=1ni=1n(Xi+a1nj=1n(Xj+a))(Yi+b1nj=1n(Yj+b))=1ni=1n(Xi+a1nj=1nXjnna)(Yi+b1nj=1nYjnnb)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)=Cov^(X,Y)
per qualsiasi e .ab


grazie per la risposta dettagliata. Significa che per la covarianza del campione anche la dimensione del campione non ha alcun impatto? cioè ridurre la dimensione del campione non riduce la covarianza del campione?
lvdp,

3
@lvdp Probabilmente dovrebbe essere una domanda separata.
Accumulo,

Una dimensione del campione ridotta può venire solo con un campione diverso. Un campione diverso potrebbe quindi mostrare una diversa covarianza. Ma poiché la covarianza del campione è definita come media, in linea di principio la dimensione del campione viene ridimensionata.
Nick Cox,

5

La definizione della covarianza di e è . L'espressione in questa formula è la versione centrato di . Quindi centriamo già quando prendiamo la covarianza e il centraggio è un operatore idempotente; una volta centrata una variabile, l'applicazione del processo di centratura altre volte non la modifica. Se la formula non prendesse le versioni centrate delle variabili, allora ci sarebbero tutti gli effetti strani, come la covarianza tra la temperatura e un'altra variabile diversa a seconda che misuriamo la temperatura in gradi Celsius o Kelvin.XYE[(XE[X])(YE[Y])]XE[X]X XXX


3

"da qualche parte" tende ad essere una fonte piuttosto inaffidabile ...

La covarianza / correlazione sono definite con centratura esplicita . Se non centrate i dati, non state calcolando la covarianza / correlazione. (Precisamente: correlazione di Pearson)

La differenza principale è se si centra sulla base di un modello teorico (ad esempio, il valore atteso dovrebbe essere esattamente 0) o sulla base dei dati (media aritmetica). È facile vedere che la media aritmetica produrrà Covarianza più piccola di qualsiasi altro centro.

Tuttavia, la covarianza più piccola non implica una correlazione più piccola, o il contrario. Supponiamo di avere i dati X = (1,2) e Y = (2,1). È facile intuire che con la centratura media aritmetica questo produrrà una correlazione perfettamente negativa, mentre se sappiamo che il processo di generazione produce 0 in media, i dati sono effettivamente correlati positivamente. Quindi, in questo esempio, stiamo centrando, ma con il valore teorico atteso di 0.

Questo può sorgere facilmente. Considera che abbiamo un array di sensori, 11x11, con le celle numerate da -5 a +5. Invece di prendere la media aritmetica, ha senso usare qui la media "fisica" del nostro array di sensori quando cerchiamo la correlazione degli eventi del sensore (se enumerassimo le celle da 0 a 10, useremmo 5 come media fissa, e otterremmo gli stessi esatti risultati, in modo che la scelta dell'indicizzazione scompaia dall'analisi - bello).


Grazie @ Anony-Mousse, la covarianza del campione dipenderà dalla dimensione del campione? Vale a dire una dimensione del campione più piccola produrrà una covarianza più piccola (prima della centratura).
lvdp,

1
Dipende ovviamente dal campione. In media, non lo so. Mi aspetto che campioni più piccoli abbiano principalmente una maggiore variabilità, quindi forse più spesso valori più estremi. Ma questa è solo un'intuizione.
Ha QUIT - Anony-Mousse,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.