Sto cercando di classificare i messaggi in diverse categorie usando un SVM. Ho compilato un elenco di parole / simboli desiderabili dal set di addestramento.
Per ogni vettore, che rappresenta un messaggio, ho impostato la riga corrispondente su 1
se la parola è presente:
"corpus" è: [mary, little, lamb, star, twinkle]
primo messaggio: "maria aveva un agnellino" -> [1 1 1 0 0]
secondo messaggio: "scintillio stellina" -> [0 1 0 1 1]
Penso che questa sia una configurazione abbastanza comune con SVM, ma la mia domanda è, con migliaia di parole nel set, cosa succede se ci sono solo 1-2 parole per messaggio che vengono effettivamente visualizzate? La dipendenza lineare della mia serie di vettori di formazione influenzerà negativamente la capacità dell'algoritmo di convergere?
flexmix
- anche se, ho avuto "Learn R" sul mio calendario per un paio d'anni a questa parte!