Quando t-SNE è fuorviante?

Citando uno degli autori:

t-Distributed Stochastic Neighbor Embedding (t-SNE) è una tecnica ( premiata ) per la riduzione della dimensionalità che è particolarmente adatta per la visualizzazione di set di dati ad alta dimensione.

Quindi suona abbastanza bene, ma è l'autore a parlare.

Un'altra citazione dell'autore (in riferimento al suddetto concorso):

Cosa hai tolto da questa competizione?
Visualizza sempre i tuoi dati prima di iniziare a formare i predittori sui dati! Spesso, visualizzazioni come quelle che ho realizzato forniscono informazioni dettagliate sulla distribuzione dei dati che possono aiutarti a determinare quali tipi di modelli di previsione provare.

Le informazioni devono ¹ si sta perdendo - si tratta di una riduzione di dimensionalità tecnica dopotutto. Tuttavia, poiché è una buona tecnica da utilizzare durante la visualizzazione, le informazioni perse sono meno preziose delle informazioni evidenziate (/ rese visibili / comprensibili attraverso la riduzione a 2 o 3 dimensioni).

Quindi la mia domanda è:

Quando tSNE è lo strumento sbagliato per il lavoro?
Che tipo di set di dati fa sì che non funzioni,
A che tipo di domande sembra che possa rispondere, ma in realtà non può?
Nella seconda citazione sopra si consiglia di visualizzare sempre il set di dati, questa visualizzazione deve essere sempre eseguita con tSNE?

Mi aspetto che si possa rispondere meglio a questa domanda al contrario, ovvero rispondere: quando tSNE è lo strumento giusto per il lavoro?

Sono stato avvertito di non fare affidamento su tSNE per dirmi quanto i dati facili saranno classificabili (separati in classi - un modello discriminante) L'esempio di essere fuorviante era che, per le due immagini sottostanti, un modello generativo ² era peggio per i dati visualizzati nel primo / a sinistra (precisione 53,6%) rispetto a uno equivalente per il secondo / destra (precisione 67,2%).

primo secondo

¹ _{Potrei sbagliarmi su questo. Potrei sedermi e provare un esempio di prova / contatore più tardi}

² _{nota che un modello generativo non è lo stesso di un modello discriminante, ma questo è l'esempio che mi è stato dato.}

data-visualization dimensionality-reduction tsne

— Lyndon White
fonte

A

$A$

B

$B$

| A | = | B |

$|A| = |B|$

| N | = | N^{n} | = ℵ_{0}

$|\mathbb{N}| = |\mathbb{N}^n| = \aleph_0$

| R | = | R | = | R^{n} | = ℵ_{1}

$|\mathbb{R}| = |\mathbb{R}| = |\mathbb{R}^n| = \aleph_1$

R^{2}

$\mathbb{R}^2$

R

$\mathbb{R}$

@Lucas: Ah, certo. (come non me ne sono reso conto)

— Lyndon White l'

Quale modello generativo stai provando?

— WeiChing Lin,

@ Wei-ChingLin Non sono sicuro del tipo di modello generativo utilizzato. Probabilmente una specie di Deep Belief Network, Deep Boltzmann Manchine o Autoencoder. Non molto rilevante per il nocciolo della domanda

— Lyndon White,

Rilevante: distill.pub/2016/misread-tsne

— Lyndon White il

Risposte:

T-Sne è una tecnica di riduzione che mantiene la struttura su piccola scala (cioè ciò che è particolarmente vicino a cosa) dello spazio, che lo rende molto bravo a visualizzare la separabilità dei dati. Ciò significa che T-Sne è particolarmente utile per la visualizzazione iniziale orientata alla comprensione del grado di separabilità dei dati. Altre tecniche (ad esempio PCA) lasciano i dati in rappresentazioni di dimensioni inferiori proiettate una sopra l'altra quando le dimensioni scompaiono, il che rende molto difficile fare una chiara dichiarazione sulla separabilità nello spazio di dimensione superiore.

Ad esempio, se ottieni un grafico T-Sne con molti dati sovrapposti, le probabilità sono alte che il tuo classificatore funzionerà male, qualunque cosa tu faccia. Al contrario, se vedi i dati chiaramente separati nel grafico T-Sne, i dati sottostanti ad alta dimensione contengono una variabilità sufficiente per costruire un buon classificatore.

— John Yetter
fonte

Questa è un'ottima spiegazione di cosa sia T-SNE, grazie. Ma non vedo le risposte alle mie effettive domande (vedi i punti nel post iniziale).

— Lyndon White

Questo non risponde affatto alla domanda.

— ameba dice Ripristina Monica il

Immediatamente, tSNE ha alcuni iperparametri, il principale è la perplessità. Ricorda che euristicamente, la perplessità definisce una nozione di somiglianza per tSNE e una perplessità universale viene utilizzata per tutti i punti dati. Potresti provare a generare un set di dati con etichetta in cui ogni cluster ha una perplessità selvaggiamente diversa. Ciò può essere realizzato facendo una miscela di gaussiani, con una vasta gamma di varianze diverse. Immagino che questo causerà anche problemi nell'implementazione di Barnes-Hut di tSNE, che si basa sui dati di quartiling e sull'utilizzo solo dei vicini più vicini. tSNE ha anche un periodo di rilassamento iniziale, che tenta di far passare i cluster tra loro. Durante questo periodo, non vi è alcuna penalità o repulsione. Ad esempio, se i tuoi dati sembrano un gruppo di noodles arruffati (ogni noodle rappresenta un determinato cluster), " sarà difficile calibrare il passaggio iniziale e dubito che tSNE funzionerà bene. In un certo senso, penso che ciò suggerisca che tSNE non funzionerà bene se i tuoi dati sono intrecciati e inizialmente risiedono in uno spazio dimensionale basso, diciamo 5.

$t$ distribuzione (ovvero la distribuzione di Cauchy) che ha code di truciolo e consente una maggiore diffusione nella rappresentazione dimensionale inferiore. Quindi, in teoria, la "t" in tSNE potrebbe anche essere un iperparametro, dove invece è possibile scegliere diverse distribuzioni (anche se a costi di calcolo elevati).

$k$

— Alex R.
fonte