Conversione della matrice di somiglianza in matrice di distanza (euclidea)


27

Nell'algoritmo della foresta casuale, Breiman (autore) costruisce una matrice di somiglianza come segue:

  1. Invia tutti gli esempi di apprendimento giù per ogni albero nella foresta

  2. Se due esempi arrivano alla stessa foglia incrementano l'elemento corrispondente nella matrice di somiglianza di 1

  3. Normalizza la matrice con il numero di alberi

Lui dice:

Le prossimità tra i casi n e k formano una matrice {prox (n, k)}. Dalla loro definizione, è facile dimostrare che questa matrice è simmetrica, definita positiva e delimitata sopra da 1, con elementi diagonali uguali a 1. Ne consegue che i valori 1-prox (n, k) sono distanze quadrate in un euclideo spazio di dimensione non superiore al numero di casi. fonte

Nella sua implementazione, usa sqrt (1-prox) , dove prox è una matrice di somiglianza, per convertirla in matrice di distanza. Immagino che abbia a che fare con le "distanze quadrate in uno spazio euclideo" citate sopra.

Qualcuno può illuminare un po 'il motivo per cui ne consegue che 1-prox sono distanze quadrate in uno spazio euclideo e perché usa la radice quadrata per ottenere una matrice di distanza?

Risposte:


30

inserisci qui la descrizione dell'immagine

Secondo il teorema del coseno , nello spazio euclideo la distanza (euclidea) al quadrato tra due punti (vettori) 1 e 2 è . Le lunghezze e sono le somme delle coordinate quadrate dei punti 1 e 2, rispettivamente (sono gli ipoteni pitagorici). La quantità è chiamata prodotto scalare (= prodotto punto, = prodotto interno) dei vettori 1 e 2.d122=h12+h22-2h1h2cosφh12h22h1h2cosφ

Il prodotto scalare è anche chiamato somiglianza di tipo angolare tra 1 e 2, e nello spazio euclideo è geometricamente la misura di somiglianza più valida , perché è facilmente convertito nella distanza euclidea e viceversa (vedi anche qui ).

Il coefficiente di covarianza e la correlazione di Pearson sono prodotti scalari. Se centrate i vostri dati multivariati (in modo che l'origine sia al centro della nuvola di punti), allora è normalizzato con le varianze dei vettori (non delle variabili X e Y nella foto sopra), mentre per dati centrati è Pearson ; quindi, un prodotto scalare è la covarianza. [Una nota a margine. Se stai pensando in questo momento alla covarianza / correlazione tra variabili , non punti dati, potresti chiedere se è possibile disegnare variabili per essere vettori come nella figura sopra. Sì, possibile, si chiama " spazio soggetto "h2cosφrσ1σ2r12"modo di rappresentazione. Il teorema del coseno rimane vero indipendentemente da ciò che viene preso come" vettore "in questa istanza: punti dati o caratteristiche dei dati.]

Ogni volta che abbiamo una matrice di somiglianza con 1 sulla diagonale , ovvero con tutte le impostate su 1, e crediamo / aspettiamo che la somiglianza sia un prodotto scalare euclideo , possiamo convertirlo alla distanza quadrata euclidea se ne hanno bisogno (ad esempio, per fare tale clustering o MDS che richiede distanze e desiderabilmente euclidee). Poiché, secondo quanto segue dalla formula del teorema del coseno sopra, è quadrato euclideo . Ovviamente puoi eliminare il fattore se la tua analisi non ne ha bisogno e convertirlo con la formulahSd2=2(1-S)d2d2=1-S. Come esempio spesso riscontrato, queste formule vengono utilizzate per convertire Pearson in distanza euclidea. (Vedi anche questo e l'intero thread in discussione alcune formule per convertire in una distanza.)rr

Appena sopra ho detto se "crediamo / aspettiamo che ...". Si può controllare ed essere sicuri che la somiglianza matrix - quella particolare a portata di mano - è geometricamente matrice prodotto scalare "OK" se la matrice non ha autovalori negativi. Ma se ha quelli, allora significa che non è un vero prodotto scalare poiché esiste un certo grado di non convergenza geometrica in o in che "si nasconde" dietro la matrice. Esistono modi per provare a "curare" tale matrice prima di trasformarla in distanze euclidee.SShd

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.