Ho lavorato su dati addestrati per l'algoritmo Word2vec. Dato che abbiamo bisogno di parole per rimanere come originali, non le rendiamo minuscole nella fase di preelaborazione. Quindi ci sono parole con diverse varianti (ad esempio "Terra" e "terra").
L'unico modo in cui riesco a pensare è prendere la media dei vettori per "Terra" e "Terra" per creare un singolo vettore per rappresentare la parola. (Poiché le dimensioni del vettore di feature sono simili)
È un metodo "ok"? In caso contrario, quale potrebbe essere un buon modo per gestire questo problema?
Nota: abbassare tutte le parole in preelaborazione non è un'opzione per ora.
Modifica: sarebbe utile anche sapere se le dimensioni delle feature sono veramente lineari.
Modifica 2: Combinando entrambe le risposte patapouf_ai
e yazhi
ottenendo i migliori risultati. Come vengono combinati? La media ponderata ha migliorato i risultati, ma mettere le frequenze delle parole attraverso una funzione sigmoidea in scala ha dato i migliori risultati, perché l'uso delle frequenze delle parole in modo lineare dà loro più importanza di quanto sopportino.