Ho un set di dati contenente al massimo 150 esempi (suddivisi in training e test), con molte funzionalità (superiore a 1000). Devo confrontare i classificatori e i metodi di selezione delle caratteristiche che funzionano bene sui dati. Quindi, sto usando tre metodi di classificazione (J48, NB, SVM) e 2 metodi di selezione delle caratteristiche (CFS, WrapperSubset) con diversi metodi di ricerca (Greedy, BestFirst).
Durante il confronto, sto esaminando l'accuratezza dell'allenamento (piegatura incrociata 5 volte) e l'accuratezza del test.
Ecco uno dei risultati di J48 e CFS-BestFirst:
{"accurateTraining": 95.83, "accurateTest": 98.21}
Molti risultati sono così, e su SVM ci sono molti risultati che indicano che l'accuratezza del test è molto più alta dell'allenamento (allenamento: 60%, test: 98%)
Come posso interpretare in modo significativo questo tipo di risultati? Se fosse inferiore, direi che è troppo adatto. C'è qualcosa da dire sulla distorsione e la varianza in questo caso guardando tutti i risultati? Cosa posso fare per rendere significativa questa classificazione, come ri-selezionare i set di addestramento e test o semplicemente usare la validazione incrociata su tutti i dati?
Ho 73 corsi di formazione e 58 di prova. Alcune risposte non avevano queste informazioni quando sono state pubblicate.