Vorrei ridurre la dimensionalità su quasi 1 milione di vettori ciascuno con 200 dimensioni ( doc2vec
). Sto usando l' TSNE
implementazione dal sklearn.manifold
modulo per questo e il problema principale è la complessità temporale. Anche con method = barnes_hut
, la velocità di calcolo è ancora bassa. Qualche volta anche la memoria si esaurisce.
Lo sto eseguendo su un processore 48 core con 130G RAM. Esiste un metodo per eseguirlo in parallelo o utilizzare la risorsa abbondante per accelerare il processo.