Sto lavorando a un progetto in R in cui ho circa 1200 e-mail da un'azienda, la maggior parte delle quali sono classificate come classe o classe, che sono i tipi di richieste. Circa 1000 e-mail sono classificate come classee 200 sono classificati come classeIl mio obiettivo è quello di utilizzare l'apprendimento supervisionato per creare un modello che classificherà le nuove e-mail.
Ma, dopo un sacco di pre-elaborazione (analisi, rimozione di password, ecc.) E prova algoritmi tipici (SVM, alberi decisionali, ecc.) Su una matrice di termini del documento, la mia matrice di confusione conteneva molti falsi positivi e falsi negativi, ma solo alcuni falsi negativi con SVM.
Mi chiedo come potrei migliorare i miei risultati? Devo utilizzare il sovracampionamento o la rappresentazione di funzioni in due grammi? Immagino che il problema sia che gli argomenti delle due categorie sono molto vicini.