PCA seleziona le dimensioni influenti per autovalutazione dei punti dati N stessi, mentre MDS seleziona le dimensioni influenti per autovalutazione dei punti dati di una matrice di distanza a coppie. Ciò ha l'effetto di evidenziare le deviazioni dall'uniformità nella distribuzione. Considerando la matrice di distanza analoga a un tensore di stress, la MDS può essere considerata un algoritmo di layout "orientato alla forza", la cui complessità di esecuzione è dove . N2O ( dNun')3 < a ≤ 4
t-SNE, d'altra parte, usa un'approssimazione del campo per eseguire una forma un po 'diversa di layout orientato alla forza, in genere tramite Barnes-Hut che riduce una complessità basata sul gradiente di a , ma le proprietà di convergenza sono meno ben comprese per questo metodo iterativo di approssimazione stocastica (per quanto ne so), e per i tipici runtime osservati sono generalmente più a lungo di altri metodi di riduzione dimensionale. I risultati sono spesso più interpretabili visivamente rispetto all'ingenua autovalutazione e, a seconda della distribuzione, spesso più intuitivi dei risultati MDS, che tendono a preservare la struttura globale a spese della struttura locale trattenuta da t-SNE.O ( dN2)O ( dN⋅ log( N) )2 ≤ d≤ 4
L'MDS è già una semplificazione del kernel PCA e dovrebbe essere estensibile con kernel alternativi, mentre il kernel t-SNE è descritto nel lavoro di Gilbrecht, Hammer, Schulz, Mokbel, Lueks et al. Non ne ho praticamente familiarità, ma forse potrebbe esserlo un altro intervistato.
Tendo a scegliere tra MDS e t-SNE sulla base di obiettivi contestuali. Qualunque chiarisca la struttura che mi interessa evidenziare, qualunque struttura abbia il maggior potere esplicativo, cioè l'algoritmo che uso. Questo può essere considerato una trappola, in quanto è una forma di grado di libertà dei ricercatori. Ma la libertà usata con saggezza non è poi così male.