Una misura di "varianza" dalla matrice di covarianza?

17

Se i dati sono 1d, la varianza mostra in che misura i punti dati sono diversi l'uno dall'altro. Se i dati sono multidimensionali, otterremo una matrice di covarianza.

Esiste una misura che fornisce un singolo numero di come i punti dati sono diversi l'uno dall'altro in generale per i dati multidimensionali?

Sento che potrebbero esserci già molte soluzioni, ma non sono sicuro del termine corretto da utilizzare per cercarle.

Forse posso fare qualcosa come sommare gli autovalori della matrice di covarianza, sembra ragionevole?

variance covariance covariance-matrix

— dontloo
fonte

2

Determinante della matrice di covarianza. Pubblicherò presto una risposta più corposa.

— user603

5

La traccia viene usata molto spesso. Ad esempio nella PCA, la frazione di varianza spiegata da ciascun componente è una frazione della "varianza totale" che è definita come la traccia della matrice di covarianza. @ user603 In attesa di una tua risposta.

— ameba dice Ripristina Monica il

2

adding up the eigenvalues of the covariance matrixè uguale alla traccia dell'ameba menzionata sopra.

— ttnphns,

Per quale scopo / sarà utilizzata la misura?

— Ciao Arrivederci,

@HelloGoodbye ciao in realtà ho alcuni [rumorosi] dati con etichette e presumo in anticipo che i punti [veri] dei dati all'interno della stessa categoria non debbano essere molto diversi. Sto cercando un modo per misurare il grado di differenze dei punti dati all'interno di ciascuna categoria, in modo da poter avere un'idea di quanto siano rumorosi i dati per ciascuna categoria.

— dontloo,

15

(La risposta che segue semplicemente introduce e afferma il teorema dimostrato in [0]. La bellezza di quel documento è che la maggior parte degli argomenti sono fatti in termini di algebra lineare di base. Per rispondere a questa domanda sarà sufficiente indicare i risultati principali ma in ogni caso, vai a controllare la fonte originale).

In qualsiasi situazione in cui il modello multivariato dei dati può essere descritto da una distribuzione ellittica di variabile, l'inferenza statistica ridurrà, per definizione, al problema di adattare (e caratterizzare) un vettore di posizione di variabile (diciamo ) e un $k$ $k$ $\boldsymbol\theta$ di matrice definita semi-positiva simmetrica (diciamo ) ai dati. Per i motivi che spiegherò di seguito (ma che già assumi come premesse), sarà spesso più significativo scomporre in un componente di forma (una matrice SPSD della stessa dimensione di ) tenendo conto della forma dei contorni di densità della tua distribuzione multivariata e uno scalare $k$ $k$ $\boldsymbol\varSigma$ $\boldsymbol\varSigma$ $\boldsymbol\varSigma$ $\sigma_S$ esprimere la scala di questi contorni.

In dati univariati ( $k=1$ ), , la matrice di covarianza dei tuoi dati è scalare e, come seguirà dalla discussione di seguito, la componente di forma di è 1 in modo che uguale alla sua componente di scala sempre e nessuna ambiguità è possibile. $\boldsymbol\varSigma$ $\boldsymbol\varSigma$ $\boldsymbol\varSigma$ $\boldsymbol\varSigma=\sigma_S$

In dati multivariati, molti scelta di scalare funzioni sono possibili. Uno in particolare ( $\sigma_S$ ) si distingue per avere una proprietà desiderabile chiave. Questo dovrebbe renderlo la scelta preferita del fattore di ridimensionamento nel contesto delle famiglie ellittiche. $\sigma_S=|\pmb\varSigma|^{1/k}$

Molti problemi nelle statistiche MT implicano la stima di una matrice di dispersione, definita come una funzione (al) simmetrica semi positiva definita in e soddisfacente: $\boldsymbol\varSigma$ $\mathbb{R}^{k\times k}$

(per matrici non singolari e vettori ). Ad esempio la stima classica della covarianza soddisfa (0) ma non è affatto l'unica.

(0) Σ (UN X + B) = UN Σ (X) {UN}^{⊤}

$(0)\quad\boldsymbol\varSigma(\boldsymbol A\boldsymbol X+\boldsymbol b)=\boldsymbol A\boldsymbol\varSigma(\boldsymbol X)\boldsymbol A^\top$

A

$\boldsymbol A$

b

$\boldsymbol b$

In presenza di dati distribuiti ellittici, in cui tutti i contorni di densità sono ellissi definiti dalla stessa matrice di forme, fino alla moltiplicazione per uno scalare, è naturale considerare le versioni normalizzate di della forma: $\boldsymbol\varSigma$

V_{S} = Σ / S (Σ)

$\boldsymbol V_S = \boldsymbol\varSigma / S(\boldsymbol\varSigma)$

dove è una funzione monogena che soddisfa: $S$

(1) S (λ Σ) = λ S (Σ)

$(1)\quad S(\lambda \boldsymbol\varSigma)=\lambda S(\boldsymbol\varSigma)$

per tutto . Poi, è chiamato il componente forma della matrice di dispersione (in matrice forma corta) e $\lambda>0$ $\boldsymbol V_S$ $\sigma_S=S^{1/2}(\boldsymbol\varSigma)$ è detta componente scala della matrice di dispersione. Esempi di problemi di stima multivariata in cui la funzione di perdita dipende solo da attraverso la sua componente di forma includono, tra gli altri, test di sfericità, PCA e CCA. $\boldsymbol\varSigma$ $\boldsymbol V_S$

Naturalmente, ci sono molte possibili funzioni di ridimensionamento, quindi questo lascia ancora aperta la questione di quale (se presente) delle diverse scelte della funzione di normalizzazione sia in un certo senso ottimale. Per esempio: $S$

(ad esempio quello proposto da @amoeba nel suo commento sotto la domanda del PO. Vedi anche [1], [2], [3]) $S=\text{tr}(\boldsymbol\varSigma)/k$
([4], [5], [6], [7], [8]) $S=|\boldsymbol\varSigma|^{1/k}$
(la prima voce della matrice di covarianza) $\boldsymbol\varSigma_{11}$
(il primo autovalore di ) $\lambda_1(\boldsymbol\varSigma)$ $\boldsymbol\varSigma$

Tuttavia, è l'unica funzione di ridimensionamento per la quale la matrice Informazioni Fisher per le corrispondenti stime di scala e forma, in famiglie localmente asintoticamente normali, sono a blocchi diagonali (ovvero le componenti di scala e forma del problema di stima sono asintoticamente ortogonali) [0 ]. Ciò significa, tra l'altro, che la scala funzionale è l'unica scelta diper la quale la non specifica di $S=|\boldsymbol\varSigma|^{1/k}$ $S=|\boldsymbol\varSigma|^{1/k}$ $S$ non provoca alcuna perdita di efficienza durante l'esecuzione di inferenza sui . $\sigma_S$ $\boldsymbol V_S$

Non conosco alcuna caratterizzazione di ottimalità relativamente forte per nessuna delle molte possibili scelte di che soddisfano (1). $S$

[0] Paindaveine, D., Una definizione canonica di forma, Lettere statistiche e di probabilità, Volume 78, Numero 14, 1 ottobre 2008, Pagine 2240-2247. Link non associato
[1] Dumbgen, L. (1998). Sulla funzione M di Tyler di scatter in alta dimensione, Ann. Inst. Statist. Matematica. 50, 471–491.
[2] Ollila, E., TP Hettmansperger e H. Oja (2004). Metodi di segno multivariato equivariante affine. Preprint, Università di Jyvaskyla.
[3] Tyler, DE (1983). Robustezza ed efficienza delle matrici scatter, Biometrika 70, 411–420.
[4] Dumbgen, L. e DE Tyler (2005). Sulle proprietà di scomposizione di alcuni funzionali M multivariati, Scand. J. Statist. 32, 247–264.
[5] Hallin, M. e D. Paindaveine (2008). Test ottimali basati sul rango per l'omogeneità dello scatter, Ann. Statista., Per apparire.
[6] Salibian-Barrera, M., S. Van Aelst e G. Willems (200 6). Analisi dei componenti principali basata su stimatori MM multivariati con bootstrap veloce e robusto, J. Amer. Statist. Assoc. 101, 1198–1211.
[7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila e H. O ja (2006). Funzioni di influenza ed efficienza della correlazione canonica e stime vettoriali basate su matrici scatter e shape, J. Multivariate Anal. 97, 359–384.
[8] Tatsuoka, KS e DE Tyler (2000). Sull'unicità di S-funzionali e M-funzionali in distribuzioni non ellittiche, Ann. Statist. 28, 1219–1243.

— user603
fonte

1

Inoltre,

Σ_{11}

$\varSigma_{11}$ è una scelta strana per il componente di scala, perché non è la rotazione-invariante ...

— ameba dice Ripristinare Monica

Grazie per la risposta deliberata! mi ci vorrà del tempo per capirlo fino in fondo :)

— dontloo,

@amoeba:

applicato a

Σ

$\boldsymbol\varSigma$

. Lascio cadere la

X X

$\pmb X$

nel resto della risposta perché non c'è confusione possibile. Sono d'accordo che è un po 'goffo, quindi ora uso

X X

$\pmb X$

. Sono d'accordo con il tuo secondo commento. Allo stesso modo,

non è invariante al riscalaggio. In questo senso il vincolo di omogeneità posto su

è una barra molto bassa.

Σ (X X)

$\boldsymbol\varSigma(\pmb X)$

λ_{1} (Σ)

$\lambda_1(\boldsymbol\varSigma)$

S

$S$

— user603,

Aspettare; perché uno dovrebbe desiderare o aspettarsi il componente di scala sia invariante rispetto al ridimensionamento ??

— ameba dice Reinstate Monica il

Scusa, intendevo dire se usi

come funzione di ridimensionamento, la matrice di forma risultante non è equivalente al riscalamento.

λ_{1} (Σ)

$\lambda_1(\boldsymbol\varSigma)$

— user603,

11

La varianza di una variabile scalare è definita come la deviazione quadrata della variabile dalla sua media:

Var (X) = E [{(X - E [X])}^{2}]

$\operatorname{Var}(X) = \operatorname E\left[\left(X - \operatorname E\left[X\right]\right)^2\right]$

Una generalizzazione a una varianza a valori scalari per variabili casuali a valori vettoriali può essere ottenuta interpretando la deviazione come distanza euclidea :

V a r_{s} (X) = E [{‖ X - E [X] ‖}_{2}^{2}]

$\operatorname{Var_s}(\mathbf X) = \operatorname E\left[\left\|\mathbf X - \operatorname E\left[\mathbf X\right]\right\|_2^2\right]$

Questa espressione può essere riscritta come

\begin{array}{rcl} V a r_{s} (X) & = & E [(X - E [X]) \cdot (X - E [X])] \\ = & E [\sum_{i = 1}^{n} (X_{i} - E [X_{i}])^{2}] \\ = & \sum_{i = 1}^{n} E [(X_{i} - E [X_{i}])^{2}] \\ = & \sum_{i = 1}^{n} Var (X_{i}) \\ = & \sum_{i = 1}^{n} C_{i i} \end{array}

$\begin{array}{rcl} \operatorname{Var_s}(\mathbf X) & = & \operatorname E[(\mathbf X - \operatorname E[\mathbf X ])\cdot(\mathbf X - \operatorname E[\mathbf X ])] \\ & = & \operatorname E\left[\sum_{i=1}^n(X_i - \operatorname E[X_i])^2\right] \\ & = & \sum_{i=1}^n \operatorname E\left[(X_i - \operatorname E[X_i])^2\right] \\ & = & \sum_{i=1}^n \operatorname{Var}(X_i) \\ & = & \sum_{i=1}^n C_{ii} \end{array}$

dove è la matrice di covarianza. Infine, questo può essere semplificato $\mathbf{C}$

V a r_{s} (X) = tr (C)

$\operatorname{Var_s}(X) = \operatorname{tr}(\mathbf{C})$

che è la traccia della matrice di covarianza.

— Ciao arrivederci
fonte

4

Sebbene la traccia della matrice di covarianza, tr (C) , fornisca una misura della varianza totale, non tiene conto della correlazione tra variabili.

Se hai bisogno di una misura della varianza complessiva che è grande quando le tue variabili sono indipendenti l'una dall'altra ed è molto piccola quando le variabili sono altamente correlate, puoi usare il determinante della matrice di covarianza, | C |.

Si prega di consultare questo articolo per un migliore chiarimento.

— Sahar
fonte

4

Se hai bisogno di un solo numero, ti suggerisco un valore di autovettore più grande di una matrice di covarianza. Questa è anche una varianza spiegata del primo componente principale in PCA. Ti dice quanta varianza totale può essere spiegata se riduci la dimensionalità del tuo vettore a una. Vedi questa risposta su matematica SE.

L'idea è di comprimere il tuo vettore in una sola dimensione combinando tutte le variabili linearmente in una serie. Si finisce con 1d problema.

La varianza spiegata può essere riportata in termini% alla varianza totale. In questo caso vedrai immediatamente se c'è molta correlazione lineare tra le serie. In alcune applicazioni questo numero può essere pari o superiore all'80%, ad esempio la modellazione della curva dei tassi di interesse in ambito finanziario. Significa che puoi costruire una combinazione lineare di variabili che spiega 80 di varianza di tutte le variabili.

— Aksakal
fonte

3

Il concetto di entropia della teoria dell'informazione sembra adattarsi allo scopo, come misura dell'imprevedibilità del contenuto informativo, che è data da

H (X) = - \int p (X) \log p (X) d X .

$H(X)=-\int p(x)\log p(x) dx.$

Se assumiamo una distribuzione gaussiana multivariata per $p(x)$ con la media $\mu$ e covarianza $\Sigma$ derivato dai dati, secondo Wikipedia , l'entropia differenziale è quindi,

H (X) = \frac{1}{2} \log ((2 π e)^{n} det (Σ))

$H(X)=\frac{1}{2}\log((2\pi e)^n\det(\Sigma))$ dove

n

$n$ è il numero di dimensioni. Poiché il gaussiano multivariato è la distribuzione che massimizza l'entropia differenziale per la covarianza data , questa formula fornisce un limite superiore dell'entropia per una distribuzione sconosciuta con una data varianza.

E dipende dal determinante della matrice di covarianza, come suggerisce @ user603.

— dontloo
fonte

Questa risposta non sembra avere lo stesso spirito della domanda. Covarianze e varianze sono proprietà di qualsiasi distribuzione (anche se in alcuni casi potrebbero essere infinite o indefinite), mentre questa risposta si concentra su un caso estremamente speciale di una distribuzione normale multivariata. Pertanto non si applica alla maggior parte delle situazioni implicitamente previste nella domanda. Potresti forse approfondire il senso in cui la tua risposta potrebbe essere interpretata come una guida utile nel caso generale in cui i dati non sono necessariamente normali?

— whuber

@whuber grazie per il suggerimento immagino che forse dovrei riscrivere gaussiano come "la distribuzione che massimizza l'entropia data una varianza"? quindi il risultato diventerà un limite superiore. cosa pensi?

— dontloo,

Sembra che stia andando in qualche posto utile e più generale.

— whuber

1

Immagino che ci siano molti modi per scuoiare un gatto;). In realtà penso che il legame tra la tua risposta e la mia sia molto forte . Ho un piccolo cavillo; Penso che il determinante abbia alcune proprietà di ottimalità per il problema che si tenta di risolvere (e non è necessario che sia scelto solo per motivi di familiarità) e penso che queste proprietà di ottimalità si estendano oltre le matrici di covarianza (esse valgono per il determinante di qualunque dispersione funzionale a cui ti capiti scelto e ce ne sono molti là fuori) e si estende oltre la distribuzione gaussiana (all'intera famiglia ellittica).

— user603