Esistono molte situazioni in cui è possibile addestrare diversi classificatori o utilizzare diversi metodi di estrazione delle funzionalità. In letteratura gli autori spesso danno l'errore di classificazione medio su una serie di divisioni casuali dei dati (cioè dopo una convalida incrociata doppiamente annidata) e talvolta danno anche varianze sull'errore rispetto alle divisioni. Tuttavia, questo da solo non è sufficiente per dire che un classificatore è significativamente migliore di un altro. Ho visto molti approcci diversi a questo - usando test Chi-quadrato, t-test, ANOVA con test post-hoc ecc.
Quale metodo dovrebbe essere usato per determinare la significatività statistica? Alla base di questa domanda è: quali ipotesi dovremmo fare sulla distribuzione dei punteggi di classificazione?