Da un punto di vista pratico ...
LDA inizia con un input bag-of-word che considera quali parole si verificano nei documenti, ma non presta attenzione al contesto immediato delle parole. Ciò significa che le parole possono apparire in qualsiasi parte del documento e in qualsiasi ordine, eliminando un determinato livello di informazioni. Al contrario, word2vec riguarda tutto il contesto in cui viene usata una parola, anche se forse non è un ordine esatto.
Gli "argomenti" di LDA sono un costrutto matematico e non dovresti confonderli con argomenti umani reali. Puoi finire con argomenti che non hanno interpretazione umana - sono più simili a manufatti del processo che argomenti reali - e puoi finire con argomenti a diversi livelli di astrazione, inclusi argomenti che sostanzialmente coprono lo stesso argomento umano. È un po 'come leggere le foglie di tè.
Ho trovato LDA utile per esplorare i dati, ma non così utile per fornire una soluzione, ma il tuo chilometraggio può variare.
Word2vec non crea argomenti direttamente. Proietta le parole in uno spazio ad alta dimensione basato su un uso simile, quindi può avere le sue sorprese in termini di parole che tu pensi distinte - o addirittura opposte - potrebbero essere vicine l'una all'altra nello spazio.
Puoi usare entrambi per determinare se le parole sono "simili". Con LDA: le parole hanno pesi simili negli stessi argomenti. Con word2vec: sono vicini (per qualche misura) nello spazio di incorporamento.
Puoi usare entrambi per determinare se i documenti sono simili. Con LDA, dovresti cercare una combinazione simile di argomenti e con word2vec faresti qualcosa come sommare i vettori delle parole del documento. ("Documento" può essere una frase, un paragrafo, una pagina o un intero documento.) Doc2vec è una versione modificata di word2vec che consente il confronto diretto dei documenti.
Mentre LDA getta via alcune informazioni contestuali con il suo approccio bag-of-words, ha argomenti (o "argomenti"), che word2vec non ha. Quindi è semplice usare doc2vec per dire "Mostrami documenti simili a questo", mentre con LDA è semplice dire "Mostrami documenti in cui l'argomento A è prominente". (Ancora una volta, sapendo che l '"argomento A" emerge da un processo matematico sui tuoi documenti e poi capisci a quali argomenti umani corrisponde principalmente.)