Quindi, sono un principiante nel campo ML e provo a fare un po 'di classificazione. Il mio obiettivo è prevedere il risultato di un evento sportivo. Ho raccolto alcuni dati storici e ora provo a formare un classificatore. Ho ottenuto circa 1200 campioni, 0,2 dei quali li ho suddivisi a scopo di test, altri li ho inseriti nella ricerca della griglia (validazione incrociata inclusa) con diversi classificatori. Ho provato SVM con kernel lineari, rbf e polinominali e foreste casuali al momento. Sfortunatamente, non riesco a ottenere una precisione significativamente maggiore di 0,5 (uguale alla scelta casuale della classe). Significa che non riesco proprio a prevedere l'esito di un evento così complesso? O posso ottenere una precisione di almeno 0,7-0,8? Se è fattibile, allora cosa dovrei esaminare dopo?
- Ricevi più dati? (Posso ingrandire il set di dati fino a 5 volte)
- Prova diversi classificatori? (Regressione logistica, kNN, ecc.)
- Rivalutare il mio set di funzionalità? Esistono strumenti ML da analizzare, quali caratteristiche hanno un senso e quali no? Forse dovrei ridurre il mio set di funzionalità (al momento ho 12 funzionalità)?