Comprendo dall'articolo di Hinton che T-SNE fa un buon lavoro nel mantenere le somiglianze locali e un lavoro decente nel preservare la struttura globale (clusterizzazione).
Tuttavia non sono chiaro se i punti che appaiono più vicini in una visualizzazione 2D t-sne possano essere assunti come punti di dati "più simili". Sto usando i dati con 25 funzionalità.
Ad esempio, osservando l'immagine qui sotto, posso supporre che i punti dati blu siano più simili a quelli verdi, in particolare al più grande cluster di punti verdi ?. Oppure, chiedendo diversamente, va bene supporre che i punti blu siano più simili a quelli verdi nel cluster più vicino, rispetto a quelli rossi nell'altro cluster? (ignorando i punti verdi nel cluster rosso-ish)
Quando si osservano altri esempi, come quelli presentati a sci-kit, apprendere l'apprendimento collettivo sembra giusto supporre questo, ma non sono sicuro che sia statisticamente corretto.
MODIFICARE
Ho calcolato manualmente le distanze dal set di dati originale (la distanza euclidea media a coppie) e la visualizzazione rappresenta in realtà una distanza spaziale proporzionale rispetto al set di dati. Tuttavia, vorrei sapere se ciò è abbastanza accettabile dalla formulazione matematica originale di t-sne e non una semplice coincidenza.