Quando si calcola la matrice di covarianza di un campione, si garantisce quindi una matrice simmetrica e definita positiva?
Attualmente il mio problema ha un campione di 4600 vettori di osservazione e 24 dimensioni.
Quando si calcola la matrice di covarianza di un campione, si garantisce quindi una matrice simmetrica e definita positiva?
Attualmente il mio problema ha un campione di 4600 vettori di osservazione e 24 dimensioni.
Risposte:
Per un campione di vettori , con , il vettore medio del campione è
e la matrice di covarianza del campione è
Per un vettore diverso da zero , abbiamo
Pertanto, Q è sempre semi-definito positivo .
La condizione aggiuntiva affinché fosse definita positiva è stata data nel seguente commento di whuber. Va come segue.
Definisci , per . Per qualsiasi diverso da zero , è zero se e solo se , per ogni . Supponiamo che l'insieme spans . Quindi, ci sono numeri reali tali che . Ma poi abbiamo , producendo che , una contraddizione. Quindi, se lo è span , allorar a n k [ z 1 … z n ] = kè definito positivo . Questa condizione è equivalente a .
Una matrice di covarianza corretta è sempre simmetrica e positiva * semi * definita.
La covarianza tra due variabili è sfidata come .
Questa equazione non cambia se si passa le posizioni di e . Quindi la matrice deve essere simmetrica.y
Deve anche essere positivo * semi- * definito perché:
Puoi sempre trovare una trasformazione delle tue variabili in modo tale che la matrice di covarianza diventi diagonale. Sulla diagonale, trovi le varianze delle variabili trasformate che sono zero o positive, è facile vedere che questo rende la matrice trasformata positiva semidefinita. Tuttavia, poiché la definizione di definizione è invariante per trasformazione, ne consegue che la matrice di covarianza è semidefinita positiva in qualsiasi sistema di coordinate scelto.
Quando stimerai la tua matrice di covarianza (ovvero, quando calcoli la tua covarianza campione ) con la formula che hai indicato sopra, si otterrà. essere ancora simmetrico. Deve anche essere semidefinito positivo (penso), perché per ogni campione, il pdf che dà ad ogni punto campione pari probabilità ha la covarianza del campione come sua covarianza (qualcuno per favore verifica questo), quindi tutto quanto sopra indicato è ancora valido.
Le matrici varianza-covarianza sono sempre simmetriche, poiché si può provare dall'equazione effettiva per calcolare ciascun termine di detta matrice.
Inoltre, le matrici Varianza-Covarianza sono sempre matrici quadrate di dimensione n, dove n è il numero di variabili nell'esperimento.
Gli autovettori di matrici simmetriche sono sempre ortogonali.
Con PCA, si determinano gli autovalori della matrice per vedere se è possibile ridurre il numero di variabili utilizzate nell'esperimento.
Aggiungerei al simpatico argomento dello Zen il seguente che spiega perché spesso diciamo che la matrice di covarianza è definita positiva se .
Se sono un campione casuale di una distribuzione di probabilità continua allora x 1 , x 2 , . . . , x n sono quasi sicuramente (nel senso della teoria della probabilità) linearmente indipendenti. Ora, z 1 , z 2 , . . . , z n non sono linearmente indipendenti perché ∑ n i = 1 z i = , ma a causa di x 1 , x 2 , . . . , X n essendo come linearmente indipendenti, z 1 , z 2 , . . . , z n come intervallo R n - 1 . Se n - 1 ≥ k , si estendono anche su R k .
Per concludere, se sono un campione casuale di una distribuzione di probabilità continua e n - 1 ≥ k , la matrice di covarianza è definita positiva.
Per quelli con un background non matematico come me che non catturano rapidamente le formule matematiche astratte, questo è un esempio elaborato che eccellono per la risposta più votata. La matrice di covarianza può essere derivata anche in altri modi.