I punti più vicini possono essere considerati più simili nella visualizzazione T-SNE?


14

Comprendo dall'articolo di Hinton che T-SNE fa un buon lavoro nel mantenere le somiglianze locali e un lavoro decente nel preservare la struttura globale (clusterizzazione).

Tuttavia non sono chiaro se i punti che appaiono più vicini in una visualizzazione 2D t-sne possano essere assunti come punti di dati "più simili". Sto usando i dati con 25 funzionalità.

Ad esempio, osservando l'immagine qui sotto, posso supporre che i punti dati blu siano più simili a quelli verdi, in particolare al più grande cluster di punti verdi ?. Oppure, chiedendo diversamente, va bene supporre che i punti blu siano più simili a quelli verdi nel cluster più vicino, rispetto a quelli rossi nell'altro cluster? (ignorando i punti verdi nel cluster rosso-ish)

inserisci qui la descrizione dell'immagine

Quando si osservano altri esempi, come quelli presentati a sci-kit, apprendere l'apprendimento collettivo sembra giusto supporre questo, ma non sono sicuro che sia statisticamente corretto.

inserisci qui la descrizione dell'immagine

MODIFICARE

Ho calcolato manualmente le distanze dal set di dati originale (la distanza euclidea media a coppie) e la visualizzazione rappresenta in realtà una distanza spaziale proporzionale rispetto al set di dati. Tuttavia, vorrei sapere se ciò è abbastanza accettabile dalla formulazione matematica originale di t-sne e non una semplice coincidenza.


1
I punti blu sono i più vicini ai rispettivi punti verdi vicini, è così che è stato eseguito l'incorporamento. In senso lato le somiglianze (o la distanza) dovrebbero essere preservate. Passare da 25 dimensioni a solo 2 comporta probabilmente una perdita di informazioni, ma la rappresentazione 2D è la più vicina che può essere mostrata sullo schermo.
Vladislavs Dovgalecs,

Risposte:


5

Presenterei t-SNE come un adattamento probabilistico intelligente dell'incorporamento localmente lineare. In entrambi i casi, proviamo a proiettare punti da uno spazio ad alta dimensione a uno piccolo. Questa proiezione viene fatta ottimizzando la conservazione delle distanze locali (direttamente con LLE, preproducendo una distribuzione probabilistica e ottimizzando la divergenza KL con t-SNE). Quindi se la tua domanda è: mantiene le distanze globali, la risposta è no. Dipenderà dalla "forma" dei tuoi dati (se la distribuzione è regolare, le distanze dovrebbero essere in qualche modo conservate).

t-SNE in realtà non funziona bene sul swiss roll (la tua immagine 3D "S") e puoi vedere che, nel risultato 2D, i punti gialli molto centrali sono generalmente più vicini a quelli rossi rispetto a quelli blu (essi sono perfettamente centrati nell'immagine 3D).

Un altro buon esempio di ciò che fa t-SNE è il raggruppamento di cifre scritte a mano. Vedi gli esempi su questo link: https://lvdmaaten.github.io/tsne/


2
Quello che voglio dire è che non puoi semplicemente usare la distanza nello spazio inferiore come criterio di somiglianza. t-SNE manterrà la struttura globale come i cluster ma non è necessario mantenere le distanze. Ciò dipenderà dalla forma dei dati ad alta dimensione e dalla perplessità che si utilizza.
Robin,

1
Ok capisco. Grazie per il chiarimento. Sì, sono d'accordo che le distanze nello spazio inferiore non sarebbero accurate. Ora, poiché t-sne è pratico per la visualizzazione, posso usare concettualmente le distanze nel diagramma dimensionale inferiore? Ad esempio nella mia trama posso dire con certezza che i punti blu sono più vicini o più simili a quelli verdi che a quelli rossi, data l'ovvia separazione dei tre gruppi nello spazio 2d. O sarebbe anche difficile da dire?
Javierfdr,

1
È piuttosto difficile da dire. I punti nello spazio dimensionale basso sono inizializzati con una distribuzione gaussiana centrata sull'origine. Vengono quindi sostituiti iterativamente ottimizzando la divergenza di KL. Quindi direi che nel tuo caso i punti blu sono più simili al cluster verde ma ora c'è modo di valutare quanto sono più vicini rispetto al cluster rosso. t-END.
Robin,

1
Nel loro insieme, t-SNE pone l'accento sulla (1) modellazione di punti dati diversi per mezzo di grandi distanze in coppia e (2) sulla modellazione di punti dati simili per mezzo di piccole distanze in coppia. In particolare, t-SNE introduce forze a lungo raggio nella mappa a bassa dimensione che possono riunire due (gruppi di) punti simili che vengono separati all'inizio dell'ottimizzazione.
Robin,

1
Spiegazione molto bella. Grazie mille per il tuo impegno. Penso che diversi commenti mettano insieme una risposta completa.
Javierfdr,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.