Una matrice di covarianza del campione è sempre simmetrica e definita positiva?


33

Quando si calcola la matrice di covarianza di un campione, si garantisce quindi una matrice simmetrica e definita positiva?

Attualmente il mio problema ha un campione di 4600 vettori di osservazione e 24 dimensioni.


Per campionare la matrice di covarianza uso la formula: dove è il numero di campioni e è la media del campione. Qn=1ni=1n(xix¯)(xix¯)nx¯
Morten,

4
Ciò verrebbe normalmente chiamato "calcolo della matrice di covarianza" o "stima della matrice di covarianza" anziché "campionamento della matrice di covarianza".
Glen_b

1
Una situazione comune in cui la matrice di covarianza non è definita è quando le 24 "dimensioni" registrano la composizione di una miscela che si somma al 100%.
whuber

Risposte:


41

Per un campione di vettori , con , il vettore medio del campione è e la matrice di covarianza del campione è Per un vettore diverso da zero , abbiamo Pertanto, Q è sempre semi-definito positivo .xi=(xi1,,xik)i=1,,n

x¯=1ni=1nxi,
Q=1ni=1n(xix¯)(xix¯).
yRk
yQy=y(1ni=1n(xix¯)(xix¯))y
=1ni=1ny(xix¯)(xix¯)y
=1ni=1n((xix¯)y)20.()
Q

La condizione aggiuntiva affinché fosse definita positiva è stata data nel seguente commento di whuber. Va come segue.Q

Definisci , per . Per qualsiasi diverso da zero , è zero se e solo se , per ogni . Supponiamo che l'insieme spans . Quindi, ci sono numeri reali tali che . Ma poi abbiamo , producendo che , una contraddizione. Quindi, se lo è span , allorazi=(xix¯)i=1,,nyRk()ziy=0i=1,,n{z1,,zn}Rkα1,,αny=α1z1++αnznyy=α1z1y++αnzny=0y=0ziRkQr a n k [ z 1z n ] = kè definito positivo . Questa condizione è equivalente a .rank[z1zn]=k


2
Mi piace questo approccio, ma consiglierei un po 'di attenzione: non è necessariamente definito positivo. Le condizioni (necessarie e sufficienti) affinché ciò avvenga sono descritte nel mio commento alla risposta di Konstantin. Q
whuber

1
Poiché il rango di è inferiore o uguale a , la condizione può essere semplificata al rango è uguale a k. k[z1,z2,,zn]k
un'offerta non può rifiutare il

13

Una matrice di covarianza corretta è sempre simmetrica e positiva * semi * definita.

La covarianza tra due variabili è sfidata come .σ(x,y)=E[(xE(x))(yE(y))]

Questa equazione non cambia se si passa le posizioni di e . Quindi la matrice deve essere simmetrica.yxy

Deve anche essere positivo * semi- * definito perché:

Puoi sempre trovare una trasformazione delle tue variabili in modo tale che la matrice di covarianza diventi diagonale. Sulla diagonale, trovi le varianze delle variabili trasformate che sono zero o positive, è facile vedere che questo rende la matrice trasformata positiva semidefinita. Tuttavia, poiché la definizione di definizione è invariante per trasformazione, ne consegue che la matrice di covarianza è semidefinita positiva in qualsiasi sistema di coordinate scelto.

Quando stimerai la tua matrice di covarianza (ovvero, quando calcoli la tua covarianza campione ) con la formula che hai indicato sopra, si otterrà. essere ancora simmetrico. Deve anche essere semidefinito positivo (penso), perché per ogni campione, il pdf che dà ad ogni punto campione pari probabilità ha la covarianza del campione come sua covarianza (qualcuno per favore verifica questo), quindi tutto quanto sopra indicato è ancora valido.


1
PS: Sto iniziando a pensare che questa non era la tua domanda ...
Konstantin Schubert,

Ma se vuoi sapere se il tuo algoritmo di campionamento lo garantisce, dovrai dichiarare come stai campionando.
Konstantin Schubert,

1
Morten, la simmetria è immediata dalla formula. Per mostrare semi-determinatezza, è necessario stabilire che per ogni vettore u . Ma Q n è 1 / n volte una somma di v i v i (dove v i = x i - ˉ x ) , da cui n u Q n u è una somma di u ( v i v i )uQnu0uQn1/nvivivi=xix¯)nuQnu = ( u v i ) ( u v i ) , che è lalunghezzaquadratadel vettore u v i . Poiché n > 0 e una somma di quadrati non possono mai essere negativi, u Q n u 0 ,QED. Ciò mostra anche che u Q n u = 0 proprio per quei vettori u che sono ortogonali a tutto il v i (u(vivi)u(uvi)(uvi)uvin>0uQnu0uQnu=0uvicioè , per tutti i ). Quando l' intervallo v i , allora u = 0 e Q n è definito. uvi=0iviu=0Qn
whuber

1
@Morten L'invarianza di trasformazione è abbastanza chiara se si capisce geometricamente una moltiplicazione di matrice. Pensa al tuo vettore come una freccia. I numeri che descrivono il tuo vettore cambiano con il sistema di coordinate, ma la direzione e la lunghezza del tuo vettore non lo fanno. Ora, una moltiplicazione con una matrice significa che cambiate la lunghezza e la direzione di quella freccia, ma di nuovo l'effetto è geometricamente lo stesso in ciascun sistema di coordinate. Lo stesso vale per un prodotto scalare: è definito geometricamente e Geometriy è invariante alla trasformazione. Quindi la tua equazione ha lo stesso risultato in tutti i sistemi.
Konstantin Schubert,

1
@Morten Quando pensi alle coordinate, l'argomento va così: Quando è la tua matrice di trasformazione, allora: v = A v con v come vettore di coordinate trasformato, M = A M A T , quindi quando trasformi ciascuno elemento nell'equazione v T M v > 0 , ottieni v T M v = ( A v ) T A M A T A vAv=AvvM=AMATvTMv>0 , che equivale a V T A T A M A T A v > 0 e, poiché A è ortogonale, A T A è la matrice unitaria e otteniamo nuovamente v T M v > 0 , il che significa che il trasformato e il equazione non trasformata ha lo stesso scalare del risultato, quindi sono entrambi o entrambi non maggiori di zero. vTMv=(Av)TAMATAv>0vTATAMATAv>0ATAvTMv>0
Konstantin Schubert,

0

Le matrici varianza-covarianza sono sempre simmetriche, poiché si può provare dall'equazione effettiva per calcolare ciascun termine di detta matrice.

Inoltre, le matrici Varianza-Covarianza sono sempre matrici quadrate di dimensione n, dove n è il numero di variabili nell'esperimento.

Gli autovettori di matrici simmetriche sono sempre ortogonali.

Con PCA, si determinano gli autovalori della matrice per vedere se è possibile ridurre il numero di variabili utilizzate nell'esperimento.


1
Benvenuto Gen. Nota che il tuo nome utente, identicon e un link alla tua pagina utente vengono aggiunti automaticamente a ogni post che pubblichi, quindi non è necessario firmare i tuoi post.
Antoine Vernet,

3
Questa risposta potrebbe essere migliorata affrontando la questione della definitività positiva
Silverfish,

Questo in realtà non risponde alla domanda: è solo una raccolta di asserzioni non supportate che potrebbero essere o non essere rilevanti. Potresti riformularlo in un modo che mostri come si risponde alla domanda e spieghi il ragionamento?
whuber

0

Aggiungerei al simpatico argomento dello Zen il seguente che spiega perché spesso diciamo che la matrice di covarianza è definita positiva se .n1k

Se sono un campione casuale di una distribuzione di probabilità continua allora x 1 , x 2 , . . . , x n sono quasi sicuramente (nel senso della teoria della probabilità) linearmente indipendenti. Ora, z 1 , z 2 , . . . , z n non sono linearmente indipendenti perché n i = 1 z i =x1,x2,...,xnx1,x2,...,xnz1,z2,...,zn , ma a causa di x 1 , x 2 , . . . , X n essendo come linearmente indipendenti, z 1 , z 2 , . . . , z n come intervallo R n - 1 . Se n - 1 k , si estendono anche su R k .i=1nzi=0x1,x2,...,xnz1,z2,...,znRn1n1kRk

Per concludere, se sono un campione casuale di una distribuzione di probabilità continua e n - 1 k , la matrice di covarianza è definita positiva.x1,x2,...,xnn1k


0

Per quelli con un background non matematico come me che non catturano rapidamente le formule matematiche astratte, questo è un esempio elaborato che eccellono per la risposta più votata. La matrice di covarianza può essere derivata anche in altri modi.

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine


Potresti spiegare come questo foglio di calcolo dimostra positività definitiva della matrice di covarianza?
whuber

Non è così. Ho avuto difficoltà a visualizzare la matrice di covarianza nella sua stessa forma notazionale. Quindi ho creato questo foglio per me stesso e ho pensato che potesse aiutare qualcuno.
Parikshit Bhinde,

Per favore, quindi, modificalo per includere una risposta alla domanda.
whuber

Fatto :) Grazie per avermi suggerito.
Parikshit Bhinde,

La domanda è "si può quindi garantire una matrice simmetrica e definita positiva?" Non riesco a percepire alcun elemento del tuo post che si rivolge a questo, perché (1) non identifica mai una matrice di covarianza; (2) non dimostra la positività positiva di nulla.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.