Un approccio tipico alla risoluzione di un problema di classificazione consiste nell'identificare una classe di modelli candidati e quindi eseguire la selezione del modello utilizzando una procedura come la convalida incrociata. In genere si seleziona il modello con la massima precisione o alcune funzioni correlate che codificano le informazioni specifiche del problema, come .
Supponendo che l'obiettivo finale sia produrre un classificatore accurato (in cui la definizione di accuratezza è di nuovo, dipendente dal problema), in quali situazioni è meglio eseguire la selezione del modello usando una regola di punteggio appropriata rispetto a qualcosa di improprio, come accuratezza, precisione, richiamo , eccetera? Inoltre, ignoriamo le questioni relative alla complessità del modello e assumiamo a priori che consideriamo tutti i modelli ugualmente probabili.
In precedenza avrei detto mai. Sappiamo, in senso formale, che la classificazione è un problema più semplice della regressione [1], [2] e possiamo derivare limiti più stretti per il primo rispetto al successivo ( ). Inoltre, ci sono casi in cui il tentativo di abbinare accuratamente le probabilità può comportare limiti di decisione errati o un eccesso di adattamento . Tuttavia, in base alla conversazione qui e al modello di voto della comunità in merito a tali problemi, ho messo in dubbio questa opinione.
- Devroye, Luc. Una teoria probabilistica del riconoscimento di schemi. Vol. 31. springer, 1996., Sezione 6.7
- Kearns, Michael J. e Robert E. Schapire. Apprendimento efficiente privo di distribuzione di concetti probabilistici. Fondamenti di informatica, 1990. Atti., 31 ° Simposio annuale su. IEEE, 1990.
Questa affermazione potrebbe essere un po 'sciatta. Intendo in particolare che dati dati etichettati nel formato con e , sembra essere più facile stimare un limite di decisione piuttosto che stimare con precisione le probabilità condizionali.