Supponi di avere due metodi di apprendimento per un problema di classificazione , e , e di stimare le loro prestazioni di generalizzazione con qualcosa come ripetute convalide incrociate o bootstrap. Da questo processo ottengo una distribuzione dei punteggi e per ciascun metodo attraverso queste ripetizioni (ad esempio la distribuzione dei valori AUC ROC per ciascun modello).
Guardando queste distribuzioni, potrebbe essere che ma che (cioè le prestazioni di generalizzazione attese di siano più alte di , ma che ci sia più incertezza su questa stima).
Penso che questo sia chiamato il dilemma della varianza nella regressione.
Quali metodi matematici posso usare per confrontare e ed eventualmente prendere una decisione informata su quale modello usare?
Nota: per semplicità, mi riferisco a due metodi e qui, ma sono interessato a metodi che possono essere utilizzati per confrontare la distribuzione di punteggi di ~ 1000 metodi di apprendimento (ad es. Da una ricerca in griglia) e infine fare una decisione finale su quale modello usare.