Uso abitualmente -SNE ( insieme alle tecniche di clustering - più su questo alla fine ) per riconoscere / valutare la presenza di cluster nei miei dati. Sfortunatamente, per quanto ne sappia, non esiste un modo standard per scegliere la perplessità corretta a parte guardare il set di dati prodotto di dimensioni ridotte e quindi valutare se è significativo. Ci sono alcuni fatti generali, ad es. le distanze tra i cluster sono per lo più insignificanti, i piccoli valori di perplessità incoraggiano piccole strutture simili a un coagulo, ma questo è tutto.t
Una regola empirica molto approssimativa è quella di verificare qual è il valore di errore associato a ciascuna ricostruzione. t-SNE sta cercando di minimizzare la somma delle divergenze di Kullback-Leibler tra la distribuzione delle distanze tra i dati nel dominio originale e la distribuzione delle distanze tra i dati nel dominio di dimensione ridotta (in realtà le distribuzioni target sono le distribuzioni del probabilità che un punto scelga un altro punto come vicino ma questi sono direttamente proporzionali alla distanza tra i due punti). Si potrebbe sostenere che valori minori della divergenza di KL mostrano risultati migliori. Questa idea non funziona molto bene nella pratica, ma teoricamente aiuterebbe ad escludere alcuni intervalli dei valori di perplessità così come alcune esecuzioni dell'algoritmo che sono chiaramente non ottimali. Spiego perché questa euristica è tutt'altro che una panacea e come potrebbe essere leggermente utile: Il parametro di perplessità aumenta monotonicamente con la varianza del gaussiano utilizzata per calcolare le distanze / probabilità. Pertanto, quando si aumenta il parametro di perplessità nel suo insieme, si otterranno distanze minori in termini assoluti e valori di divergenza KL successivi. Tuttavia, se hai 20 piste con la stessa perplessità e non puoi (non vuoi guardarle) puoi sempre scegliere quella con la variabile più piccola sperando che mantenga le distanze originali in modo più accurato. Lo stesso vale per il Tuttavia, se hai 20 piste con la stessa perplessità e non puoi (non vuoi guardarle) puoi sempre scegliere quella con la variabile più piccola sperando che mantenga le distanze originali in modo più accurato. Lo stesso vale per il Tuttavia, se hai 20 piste con la stessa perplessità e non puoi (non vuoi guardarle) puoi sempre scegliere quella con la variabile più piccola sperando che mantenga le distanze originali in modo più accurato. Lo stesso vale per il , il parametro di approssimazione per l'approssimazione di Barnes-Hut, supponendo che la perplessità sia fissa cambiando θ e quindi controllare i costi risultanti dovrebbe essere in qualche modo informativo. Alla fine della giornata, costi più bassi sono associati a ricostruzioni più fedeli. Non tutto è perduto però ...θθ
KKtt-SNE è stato usato in primo luogo dopo tutto, se la rappresentazione risultante non è informativa per le proprietà che stiamo investigando, semplicemente non è buona nonostante il suo basso errore di ricostruzione, fascino visivo, ecc. Ecc.
Vorrei sottolineare che ciò che descrivo sono euristiche . Come accennato all'inizio del mio post, ispezionare manualmente i risultati è un modo indispensabile per valutare la qualità della riduzione / raggruppamento della dimensionalità risultante.