Ho creato un classificatore Naive Bayes che utilizza la tecnica del bag-of-word per classificare i post di spam in una bacheca. Funziona, ma penso che potrei ottenere risultati molto migliori se i miei modelli considerassero gli ordinamenti e le frasi delle parole. (ad esempio, "ragazze" e "live" potrebbero non generare un punteggio spam elevato, anche se "ragazze live" è molto probabilmente spazzatura). Come posso costruire un modello che tenga conto dell'ordinamento delle parole?
Ho preso in considerazione la memorizzazione di n-grammi (check-out-these, out-these-live, these-live-girls), ma questo sembra aumentare radicalmente la dimensione del dizionario in cui tengo il punteggio e causa incoerenza come frasi con una formulazione simile ma un ordine diverso sfuggirà.
Non sono legato alla classificazione bayesiana, ma mi piacerebbe qualcosa che una persona senza un forte background nelle statistiche potrebbe mettere insieme e implementare.