Quali sono le distanze tra le variabili che formano una matrice di covarianza?


11

Ho una matrice di covarianza e desidero dividere le variabili in cluster utilizzando un cluster gerarchico (ad esempio, per ordinare una matrice di covarianza).kn×nk

Esiste una tipica funzione di distanza tra le variabili (ovvero tra colonne / file della matrice quadrata di covarianza)?

O se ce ne sono altri, c'è un buon riferimento sull'argomento?


Perché dovresti usare il clustering gerarchico sulle variabili? Generalmente, pensiamo a una matrice di dati , con variabili nelle colonne e osservazioni nelle righe. Se si desidera cercare raggruppamenti latenti, è possibile provare, ad esempio, il raggruppamento gerarchico su righe / osservazioni o, ad esempio, l' analisi dei fattori su colonne / variabili. X
gung - Ripristina Monica

@Piotr, Sì, la covarianza (o correlazione o coseno) può essere facilmente e naturalmente convertita in distanza euclidea, perché è un prodotto scalare (= somiglianza di tipo angolare). Conoscere la covarianza tra due variabili e le loro varianze implica automaticamente la conoscenza di d tra le variabili: . d2=σ12+σ222cov
ttnphns,

Nota questa formula significa che una covarianza negativa è una distanza maggiore della covarianza positiva (e questo è davvero il caso dal punto di vista geometrico). Se non vuoi che il segno della covarianza abbia un ruolo, abolisci il segno negativo.
ttnphns,

@gung È una matrice simmetrica, quindi righe ~ colonne. Per me è cruciale dividerlo in insiemi di variabili, non "ruotarli" con l'analisi dei fattori (in realtà, non sto lavorando con una matrice cov standard, ma complessa (matrice di densità nella meccanica quantistica)).
Piotr Migdal,

@ttnphns Grazie. La cosa che mi preoccupa è che voglio separare le variabili non correlate - la correlazione negativa è per me (quasi) buona quanto quella positiva.
Piotr Migdal,

Risposte:


13

La covarianza (o correlazione o coseno) può essere facilmente e naturalmente convertita in distanza euclidea mediante la legge dei coseni , perché è un prodotto scalare (= somiglianza angolare) nello spazio euclideo. Conoscere la covarianza tra due variabili i e j così come le loro varianze implica automaticamente la conoscenza di d tra le variabili: . (Che è direttamente proporzionale alla solita distanza euclidea quadrata d 2 i jdij2=σi2+σj22covijdij2: ottieni quest'ultimo se usi le somme di quadrati e la somma dei prodotti incrociati al posto delle varianze e della covarianza. Entrambe le variabili dovrebbero ovviamente essere centrate inizialmente: parlare di "covarianze" è alias pensare a dati con mezzi rimossi.)

Nota, questa formula significa che una covarianza negativa è una distanza maggiore della covarianza positiva (e questo è effettivamente il caso dal punto di vista geometrico, cioè quando le variabili sono viste come vettori nello spazio soggetto ). Se non vuoi che il segno della covarianza abbia un ruolo, abolisci il segno negativo. Ignorare il segno negativo non è un'operazione di "correzione manuale" ed è garantito, se necessario: se la matrice cov è definita positiva, anche la matrice abs (cov) sarà definita positiva; e quindi le distanze ottenute dalla formula precedente saranno veri euclidee distanze (distanza euclidea è un particolare tipo di metrica distanza).

Le distanze euclidee sono universali rispetto al raggruppamento gerarchico : qualsiasi metodo di tale raggruppamento è valido con euclideo o quadrato euclideo d . Ma alcuni metodi, ad esempio il collegamento medio o il collegamento completo, possono essere utilizzati con qualsiasi dissomiglianza o somiglianza (non solo distanze metriche). Quindi potresti usare tali metodi direttamente con matrice cov o abs (cov) o - solo per esempio - con matrice distanza max (abs (cov)) - abs (cov) . Naturalmente, i risultati del clustering dipendono potenzialmente dalla natura esatta della (dis) somiglianza utilizzata.


Come si definisce ? Ho scoperto che questo equivale al valore di aspettativa della distanza al quadrato tra due variabili stocastiche se entrambe le variabili hanno la stessa media, ma non se hanno una media diversa (quindi sarà più piccolo). d 2 i jdij2dij2
Ciao Arrivederci

@CiaoGio arrivederci, sì, insisto due variabili (vettori) con mezzi uguali - in realtà, con mezzi rimossi, in primo luogo.
ttnphns,

3

Perché non utilizzare la matrice di correlazione per eseguire il clustering? Supponendo che le variabili casuali siano centrate, calcolando la correlazione tra le variabili si sta calcolando la distanza di somiglianza del coseno . Questa distanza è anche menzionata nel tuo link. Questa distanza può essere utilizzata per il clustering gerarchico. Più piccola è 1 - | somiglianza del coseno |, più simili sono le tue variabili.


E le loro proprietà? Non ho alcun problema a venire con alcune distanze (ad esempio , o uno effettivamente uguale alla distanza del coseno, oppure alcuni relativi a proiezioni su autovettori). Voglio solo farlo in modo educato su misura per la matrice della covarianza. d(i,j)=1Aij2/(AiiAjj)
Piotr Migdal,

3
Ah, scusa per l'incomprensione. La migliore fonte che conosco è questa . Studiano la qualità di diverse metriche (che usano la correlazione) con il clustering gerarchico. Per il clustering gerarchico normalmente provo molte metriche e vedo quale funziona meglio per il mio obiettivo e i miei dati particolari.
Jorge Banuelos,

il link non sembra funzionare più?
Matifou,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.