Sto cercando di progettare un sistema che dato un paragrafo di testo sarà in grado di classificarlo e identificare il contesto:
- È addestrato con paragrafi di testo generati dall'utente (come commenti / domande / risposte)
- Ogni elemento nel set di allenamento verrà taggato con. Ad esempio ("categoria 1", "testo paragrafo")
- Ci saranno centinaia di categorie
Quale sarebbe l'approccio migliore per costruire un tale sistema? Ho esaminato alcune diverse opzioni e di seguito è riportato un elenco di possibili soluzioni. Word2Vec / NN è la soluzione migliore al momento?
- Rete tensoriale neurale ricorsiva alimentata con dati Word2Vec medi
- RNTN e Il paragrafo vettoriale ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- TF-IDF utilizzato in una rete di credenze profonde
- TF-IDF e regressione logistica
- Sacco di parole e classificazione Naive Bayes