Scelta degli iperparametri usando T-SNE per la classificazione


13

Nel problema specifico con cui lavoro (una competizione) ho l'impostazione seguente: 21 caratteristiche (numeriche su [0,1]) e un'uscita binaria. Ho circa 100 K righe. L'ambientazione sembra essere molto rumorosa.

Io e altri partecipanti applichiamo la generazione di funzionalità per un po 'e l'incorporamento stocastico distribuito a t distribuito si è rivelato piuttosto potente in questo contesto.

Mi sono imbattuto in questo post "Come usare efficacemente t-SNE", ma ancora non riesco davvero a concludere su come scegliere meglio gli iperparametri nella mia impostazione di classificazione.

Ci sono delle regole empiriche (numero di funzioni, dimensione dell'incorporamento -> scelta della perplessità)?

Al momento applico solo le impostazioni ad hoc in quanto impiega troppo tempo a ripetere varie impostazioni. Grazie per eventuali commenti.


Questa è un'ottima domanda! Spero che qualcuno troverà la mia risposta abbastanza poco brillante in modo da ottenere un'altra risposta (e imparo anche qualcosa di nuovo).
usεr11852 dice Reinstate Monic il

Risposte:


17

Uso abitualmente -SNE ( insieme alle tecniche di clustering - più su questo alla fine ) per riconoscere / valutare la presenza di cluster nei miei dati. Sfortunatamente, per quanto ne sappia, non esiste un modo standard per scegliere la perplessità corretta a parte guardare il set di dati prodotto di dimensioni ridotte e quindi valutare se è significativo. Ci sono alcuni fatti generali, ad es. le distanze tra i cluster sono per lo più insignificanti, i piccoli valori di perplessità incoraggiano piccole strutture simili a un coagulo, ma questo è tutto.t

Una regola empirica molto approssimativa è quella di verificare qual è il valore di errore associato a ciascuna ricostruzione. t-SNE sta cercando di minimizzare la somma delle divergenze di Kullback-Leibler tra la distribuzione delle distanze tra i dati nel dominio originale e la distribuzione delle distanze tra i dati nel dominio di dimensione ridotta (in realtà le distribuzioni target sono le distribuzioni del probabilità che un punto scelga un altro punto come vicino ma questi sono direttamente proporzionali alla distanza tra i due punti). Si potrebbe sostenere che valori minori della divergenza di KL mostrano risultati migliori. Questa idea non funziona molto bene nella pratica, ma teoricamente aiuterebbe ad escludere alcuni intervalli dei valori di perplessità così come alcune esecuzioni dell'algoritmo che sono chiaramente non ottimali. Spiego perché questa euristica è tutt'altro che una panacea e come potrebbe essere leggermente utile: Il parametro di perplessità aumenta monotonicamente con la varianza del gaussiano utilizzata per calcolare le distanze / probabilità. Pertanto, quando si aumenta il parametro di perplessità nel suo insieme, si otterranno distanze minori in termini assoluti e valori di divergenza KL successivi. Tuttavia, se hai 20 piste con la stessa perplessità e non puoi (non vuoi guardarle) puoi sempre scegliere quella con la variabile più piccola sperando che mantenga le distanze originali in modo più accurato. Lo stesso vale per il Tuttavia, se hai 20 piste con la stessa perplessità e non puoi (non vuoi guardarle) puoi sempre scegliere quella con la variabile più piccola sperando che mantenga le distanze originali in modo più accurato. Lo stesso vale per il Tuttavia, se hai 20 piste con la stessa perplessità e non puoi (non vuoi guardarle) puoi sempre scegliere quella con la variabile più piccola sperando che mantenga le distanze originali in modo più accurato. Lo stesso vale per il , il parametro di approssimazione per l'approssimazione di Barnes-Hut, supponendo che la perplessità sia fissa cambiando θ e quindi controllare i costi risultanti dovrebbe essere in qualche modo informativo. Alla fine della giornata, costi più bassi sono associati a ricostruzioni più fedeli. Non tutto è perduto però ...θθ

KKtt-SNE è stato usato in primo luogo dopo tutto, se la rappresentazione risultante non è informativa per le proprietà che stiamo investigando, semplicemente non è buona nonostante il suo basso errore di ricostruzione, fascino visivo, ecc. Ecc.

Vorrei sottolineare che ciò che descrivo sono euristiche . Come accennato all'inizio del mio post, ispezionare manualmente i risultati è un modo indispensabile per valutare la qualità della riduzione / raggruppamento della dimensionalità risultante.


Grazie per questo. L'idea dell'indice sulla misura in cui il clustering si adatta alla classificazione sembra interessante.
Ric,

4

Normalmente impostiamo la perplessità al 5% della dimensione del set di dati. Quindi per un set di dati con 100.000 righe inizierei con una perplessità di 5000, o almeno 1000, se non si dispone di un computer ad alte prestazioni. I nostri set di dati provengono dall'analisi della citometria a flusso, di solito hanno da 50k a 500k punti dati ciascuno con 10-20 valori numerici.


4

Potrebbe essere interessante dare un'occhiata alla "Selezione automatica della perplessità t-SNE" di Cao e Wang :

t-Distributed Stochastic Neighbor Embedding (t-SNE) è uno dei metodi di riduzione dimensionale più utilizzati per la visualizzazione dei dati, ma ha un iperparametro di perplessità che richiede la selezione manuale. In pratica, un'adeguata regolazione della perplessità di t-SNE richiede agli utenti di comprendere il funzionamento interno del metodo e di avere esperienza pratica. Proponiamo un obiettivo di selezione del modello per la perplessità di t-SNE che richiede un calcolo extra trascurabile oltre a quello del t-SNE stesso. Convalidiamo empiricamente che le impostazioni di perplessità rilevate dal nostro approccio siano coerenti con le preferenze suscitate dagli esperti umani attraverso una serie di set di dati. Vengono anche analizzate le somiglianze del nostro approccio ai criteri di informazione bayesiana (BIC) e la lunghezza minima della descrizione (MDL).


2
Quali sono state le conclusioni ..?
Tim

1
S(PerpleX.)=2KL(P||Q)+log(n)PerleX.n(Ma +1 ai commenti di Tim, l'abstract di un documento è lungi dall'essere una risposta completa; per favore, cerca di creare una risposta che sia autoesplicativa / contenuta.)
usεr11852 dice Reinstate Monic il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.