Mi chiedo come etichettare (taggare) frasi / paragrafi / documenti con doc2vec in gensim - da un punto di vista pratico.
Devi avere ogni frase / paragrafo / documento con una propria etichetta univoca (ad esempio "Sent_123")? Questo sembra utile se vuoi dire "quali parole o frasi sono più simili a una singola frase specifica etichettata" Sent_123 ".
È possibile ripetere le etichette in base al contenuto? Ad esempio, se ogni frase / paragrafo / documento riguarda un determinato articolo di prodotto (e ci sono più frasi / paragrafi / documenti per un determinato articolo di prodotto) puoi etichettare le frasi in base all'articolo e quindi calcolare la somiglianza tra una parola o un frase e questa etichetta (che suppongo sarebbe una media di tutte quelle frasi che avevano a che fare con l'articolo del prodotto)?