Risposte:
Bene, i nomi sono piuttosto semplici e dovrebbero darti un'idea chiara delle rappresentazioni vettoriali.
L'algoritmo Word2Vec crea una rappresentazione semantica distribuita delle parole. Esistono due approcci principali alla formazione, Distributed Bag of Words e The skip gram model. Uno prevede la previsione delle parole di contesto utilizzando una parola centrale, mentre l'altro prevede la previsione della parola utilizzando le parole di contesto. Puoi leggerlo in dettaglio nel documento di Mikolov .
La stessa idea può essere estesa a frasi e documenti completi in cui invece di apprendere rappresentazioni di caratteristiche per parole, la impari per frasi o documenti. Tuttavia, per avere un'idea generale di un FraseToVec, pensalo come una media matematica delle rappresentazioni vettoriali di parole di tutte le parole della frase. È possibile ottenere un'approssimazione molto buona semplicemente calcolando la media e senza allenare alcun WORDToVec, ma ovviamente ha i suoi limiti.
Doc2Vec estende l'idea di WORDToVec o piuttosto Word2Vec perché le frasi possono anche essere considerate come documenti. L'idea di allenamento rimane simile. Puoi leggere l' articolo Doc2Vec di Mikolov per maggiori dettagli.
Venendo alle applicazioni, dipende dal compito. Un Word2Vec cattura efficacemente le relazioni semantiche tra le parole, quindi può essere utilizzato per calcolare le somiglianze delle parole o alimentato come funzionalità per varie attività di PNL come l'analisi del sentimento ecc. Tuttavia, le parole possono solo catturare così tanto, ci sono momenti in cui hai bisogno di relazioni tra frasi e documenti e non solo parole. Ad esempio, se stai cercando di capire, se due domande di overflow dello stack sono duplicate l'una dall'altra.
Una semplice ricerca su Google ti porterà a una serie di applicazioni di questi algoritmi.