Sto cercando di fare un'analisi del sentiment. Per convertire le parole in vettori di parole sto usando il modello word2vec. Supponiamo che io abbia tutte le frasi in un elenco chiamato "frasi" e le sto passando a word2vec come segue:
model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3)
Dato che non sono un esperto di vettori di parole, ho due dubbi.
1- L'impostazione del numero di funzioni su 300 definisce le caratteristiche di un vettore di parole. Ma cosa significano queste caratteristiche? Se ogni parola in questo modello è rappresentata da un array numpy 1x300, cosa significano queste 300 caratteristiche per quella parola?
2- Cosa fa in realtà il down-sampling come rappresentato dal parametro 'sample' nel modello sopra?
Grazie in anticipo.