Quando una regola di punteggio appropriata rappresenta una migliore stima della generalizzazione in un contesto di classificazione?


9

Un approccio tipico alla risoluzione di un problema di classificazione consiste nell'identificare una classe di modelli candidati e quindi eseguire la selezione del modello utilizzando una procedura come la convalida incrociata. In genere si seleziona il modello con la massima precisione o alcune funzioni correlate che codificano le informazioni specifiche del problema, come .Fβ

Supponendo che l'obiettivo finale sia produrre un classificatore accurato (in cui la definizione di accuratezza è di nuovo, dipendente dal problema), in quali situazioni è meglio eseguire la selezione del modello usando una regola di punteggio appropriata rispetto a qualcosa di improprio, come accuratezza, precisione, richiamo , eccetera? Inoltre, ignoriamo le questioni relative alla complessità del modello e assumiamo a priori che consideriamo tutti i modelli ugualmente probabili.

In precedenza avrei detto mai. Sappiamo, in senso formale, che la classificazione è un problema più semplice della regressione [1], [2] e possiamo derivare limiti più stretti per il primo rispetto al successivo ( ). Inoltre, ci sono casi in cui il tentativo di abbinare accuratamente le probabilità può comportare limiti di decisione errati o un eccesso di adattamento . Tuttavia, in base alla conversazione qui e al modello di voto della comunità in merito a tali problemi, ho messo in dubbio questa opinione.

  1. Devroye, Luc. Una teoria probabilistica del riconoscimento di schemi. Vol. 31. springer, 1996., Sezione 6.7
  2. Kearns, Michael J. e Robert E. Schapire. Apprendimento efficiente privo di distribuzione di concetti probabilistici. Fondamenti di informatica, 1990. Atti., 31 ° Simposio annuale su. IEEE, 1990.

() Questa affermazione potrebbe essere un po 'sciatta. Intendo in particolare che dati dati etichettati nel formato con e , sembra essere più facile stimare un limite di decisione piuttosto che stimare con precisione le probabilità condizionali.S={(x1,y1),,(xn,yn)}xiXyi{1,,K}

Risposte:


4

Pensa a questo come un confronto tra il test -test / Wilcoxon e il test mediano Mood. Il test mediano utilizza una classificazione ottimale (sopra o sotto la mediana per una variabile continua) in modo da perdere solo delle informazioni nel campione. La dicotomizzazione in un punto diverso dalla mediana perderà molte più informazioni. L'uso di una regola di punteggio improprio come la proporzione classificata "correttamente" è al massimo o circa efficiente. Ciò comporta la selezione di funzioni errate e la ricerca di un modello falso.t1π2π23


Immagino di non capire perché la dicotomizzazione sia rilevante. L'obiettivo finale è quello di scegliere un classificatore da una classe di ipotesi tale che sia minimo, dato un campione finito costituito da esempi distribuiti secondo . hHP(x,y)D(h(x)y)SD
alto

2
Il problema è che la classificazione (al contrario della previsione del rischio) è una dicotomizzazione non necessaria.
Frank Harrell,

Quindi è sicuro supporre che la risposta a questa domanda non sia mai, a condizione che l'obiettivo sia il processo decisionale ottimale di Bayes rispetto ad alcune funzioni di utilità e che non corrispondano esattamente alle probabilità?
alto

La decisione ottimale di Bayes richiede rischi previsti ben calibrati, quindi i due sono collegati. La decisione ottimale non utilizza una dicotomizzazione fatta precedentemente nella pipeline ma condizioni su informazioni complete, ad esempio non . Prob(Y=1|X=x)Prob(Y=1|X>c)
Frank Harrell,

1
Bella discussione. In alcuni casi come alcuni rilevatori di spam, è possibile ottenere un "incerto". Sono più interessato alla soglia in problemi come la diagnosi medica e la prognosi.
Frank Harrell,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.