Conversione della matrice di somiglianza in matrice di distanza (euclidea)

Nell'algoritmo della foresta casuale, Breiman (autore) costruisce una matrice di somiglianza come segue:

Invia tutti gli esempi di apprendimento giù per ogni albero nella foresta
Se due esempi arrivano alla stessa foglia incrementano l'elemento corrispondente nella matrice di somiglianza di 1
Normalizza la matrice con il numero di alberi

Lui dice:

Le prossimità tra i casi n e k formano una matrice {prox (n, k)}. Dalla loro definizione, è facile dimostrare che questa matrice è simmetrica, definita positiva e delimitata sopra da 1, con elementi diagonali uguali a 1. Ne consegue che i valori 1-prox (n, k) sono distanze quadrate in un euclideo spazio di dimensione non superiore al numero di casi. fonte

Nella sua implementazione, usa sqrt (1-prox) , dove prox è una matrice di somiglianza, per convertirla in matrice di distanza. Immagino che abbia a che fare con le "distanze quadrate in uno spazio euclideo" citate sopra.

Qualcuno può illuminare un po 'il motivo per cui ne consegue che 1-prox sono distanze quadrate in uno spazio euclideo e perché usa la radice quadrata per ottenere una matrice di distanza?

— Uros K
fonte

inserisci qui la descrizione dell'immagine

Secondo il teorema del coseno , nello spazio euclideo la distanza (euclidea) al quadrato tra due punti (vettori) 1 e 2 è . Le lunghezze e sono le somme delle coordinate quadrate dei punti 1 e 2, rispettivamente (sono gli ipoteni pitagorici). La quantità è chiamata prodotto scalare (= prodotto punto, = prodotto interno) dei vettori 1 e 2. $d_{12}^2 = h_1^2+h_2^2-2h_1h_2\cos\phi$ $h_1^2$ $h_2^2$ $h_1h_2\cos\phi$

Il prodotto scalare è anche chiamato somiglianza di tipo angolare tra 1 e 2, e nello spazio euclideo è geometricamente la misura di somiglianza più valida , perché è facilmente convertito nella distanza euclidea e viceversa (vedi anche qui ).

Il coefficiente di covarianza e la correlazione di Pearson sono prodotti scalari. Se centrate i vostri dati multivariati (in modo che l'origine sia al centro della nuvola di punti), allora è normalizzato con le varianze dei vettori (non delle variabili X e Y nella foto sopra), mentre per dati centrati è Pearson ; quindi, un prodotto scalare è la covarianza. [Una nota a margine. Se stai pensando in questo momento alla covarianza / correlazione tra variabili , non punti dati, potresti chiedere se è possibile disegnare variabili per essere vettori come nella figura sopra. Sì, possibile, si chiama " spazio soggetto " $h^2$ $\cos\phi$ $r$ $\sigma_1\sigma_2r_{12}$ "modo di rappresentazione. Il teorema del coseno rimane vero indipendentemente da ciò che viene preso come" vettore "in questa istanza: punti dati o caratteristiche dei dati.]

Ogni volta che abbiamo una matrice di somiglianza con 1 sulla diagonale , ovvero con tutte le impostate su 1, e crediamo / aspettiamo che la somiglianza sia un prodotto scalare euclideo , possiamo convertirlo alla distanza quadrata euclidea se ne hanno bisogno (ad esempio, per fare tale clustering o MDS che richiede distanze e desiderabilmente euclidee). Poiché, secondo quanto segue dalla formula del teorema del coseno sopra, è quadrato euclideo . Ovviamente puoi eliminare il fattore se la tua analisi non ne ha bisogno e convertirlo con la formula $h$ $s$ $d^2=2(1-s)$ $d$ $2$ $d^2=1-s$ . Come esempio spesso riscontrato, queste formule vengono utilizzate per convertire Pearson in distanza euclidea. (Vedi anche questo e l'intero thread in discussione alcune formule per convertire in una distanza.) $r$ $r$

Appena sopra ho detto se "crediamo / aspettiamo che ...". Si può controllare ed essere sicuri che la somiglianza matrix - quella particolare a portata di mano - è geometricamente matrice prodotto scalare "OK" se la matrice non ha autovalori negativi. Ma se ha quelli, allora significa che non è un vero prodotto scalare poiché esiste un certo grado di non convergenza geometrica in o in che "si nasconde" dietro la matrice. Esistono modi per provare a "curare" tale matrice prima di trasformarla in distanze euclidee. $s$ $s$ $h$ $d$

— ttnphns
fonte