Voglio usare Latent Dirichlet Allocation per un progetto e sto usando Python con la libreria gensim. Dopo aver trovato gli argomenti, vorrei raggruppare i documenti usando un algoritmo come k-mean (idealmente vorrei usarne uno buono per i cluster sovrapposti, quindi ogni raccomandazione è benvenuta). Sono riuscito a ottenere gli argomenti, ma sono nella forma di:
0,041 * Ministro + 0,041 * Chiave + 0,041 * momenti + 0,041 * controverso + 0,041 * Primo
Per applicare un algoritmo di clustering e correggermi se sbaglio, credo che dovrei trovare un modo per rappresentare ogni parola come un numero usando tfidf o word2vec.
Hai qualche idea di come potrei "spogliare" le informazioni testuali da ad esempio un elenco, al fine di farlo e poi rimetterle al fine di effettuare la moltiplicazione appropriata?
Ad esempio, per come la vedo io se la parola Ministro ha un peso totale di 0,042 e così via per qualsiasi altra parola all'interno dello stesso argomento, dovrei essere di calcolare qualcosa del tipo:
0,041 * 0,42 + ... + 0,041 * tfidf (Prime) e ottenere un risultato che verrà successivamente utilizzato per raggruppare i risultati.
Grazie per il tuo tempo.