Come determinare i parametri per t-SNE per ridurre le dimensioni?


11

Sono molto nuovo con gli incantesimi di parole. Voglio visualizzare come stanno i documenti dopo l'apprendimento. Ho letto che t-SNE è l'approccio per farlo. Ho 100K documenti con 250 dimensioni come dimensione dell'incorporamento. Ci sono anche diversi pacchetti disponibili.

Tuttavia, per t-SNE, non so quante iterazioni o il valore di alfa o il valore di perpexility dovrei continuare a imparare meglio.

Questi iperparametri o possono essere determinati da alcuni attributi?

Risposte:


12

Consiglio vivamente l'articolo Come usare t-SNE in modo efficace . Ha grandi trame animate del processo di adattamento di tsne ed è stata la prima fonte che mi ha dato una comprensione intuitiva di ciò che fa tsne.

Ad alto livello, la perplessità è il parametro che conta. È una buona idea provare la perplessità di 5, 30 e 50 e guardare i risultati.

Ma seriamente, leggi Come usare t-SNE in modo efficace. Renderà più efficace l'utilizzo di TSNE.

Per i pacchetti, utilizzare Rtsne in R o sklearn.manifold.TSNE in python


Per set di dati più grandi e per utilizzare la GPU nei tuoi calcoli. Dai un'occhiata alla libreria Rapids di nVidia. [Rapids.AI] (rapids.ai)
Aakash Gupta

2

Citerò le FAQ dal sito Web di t-SNE . Primo per perplessità:

Come devo impostare la perplessità in t-SNE?

Le prestazioni di t-SNE sono abbastanza solide sotto diverse impostazioni della perplessità. Il valore più appropriato dipende dalla densità dei dati. A grandi linee, si potrebbe dire che un set di dati più grande / più denso richiede una maggiore perplessità. I valori tipici per la perplessità sono compresi tra 5 e 50.

Per tutti gli altri paremeters prenderei in considerazione la lettura di questo:

Come posso valutare la qualità delle visualizzazioni che t-SNE ha costruito?

Preferibilmente, guardali! Si noti che t-SNE non mantiene le distanze ma le probabilità, quindi misurare qualche errore tra le distanze euclidee in alta-D e bassa-D è inutile. Tuttavia, se si utilizzano gli stessi dati e perplessità, è possibile confrontare le divergenze di Kullback-Leibler riportate da t-SNE. Va benissimo eseguire t-SNE dieci volte e selezionare la soluzione con la divergenza di KL più bassa.

In altre parole significa: guarda la trama, se la visualizzazione è buona non modificare i parametri. Puoi anche scegliere la corsa con la divergenza di KL più bassa per ogni perplessità fissa.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.