Per un'attività di elaborazione del linguaggio naturale (NLP) si usano spesso i vettori word2vec come incorporamento per le parole. Tuttavia, potrebbero esserci molte parole sconosciute che non vengono catturate dai vettori word2vec semplicemente perché queste parole non vengono visualizzate abbastanza spesso nei dati di addestramento (molte implementazioni usano un conteggio minimo prima di aggiungere una parola al vocabolario). Questo può essere il caso in particolare del testo, ad esempio Twitter, in cui le parole sono spesso errate.
Come dovrebbero essere gestite parole così sconosciute quando si modella un task NLP come la previsione del sentiment usando una rete a breve termine (LSTM)? Vedo due opzioni:
- Aggiunta di un token "parola sconosciuta" al dizionario word2vec.
- Eliminare queste parole sconosciute in modo tale che LSTM non sappia nemmeno che la parola era nella frase.
Qual è il modo preferito di gestire queste parole?