L'accuratezza è una regola di punteggio impropria in un'impostazione di classificazione binaria?


13

Recentemente ho imparato a conoscere le regole di punteggio adeguate per i classificatori probabilistici. Numerosi thread su questo sito Web hanno sottolineato come l'accuratezza sia una regola di punteggio impropria e non dovrebbe essere utilizzata per valutare la qualità delle previsioni generate da un modello probabilistico come la regressione logistica.

Tuttavia, alcuni articoli accademici che ho letto hanno dato la perdita di classificazione errata come esempio di una regola di punteggio corretta (non rigorosa) in un ambiente di classificazione binaria. La spiegazione più chiara che ho trovato è stata in questo documento , in fondo a pagina 7. Per quanto ne so , minimizzare la perdita di classificazione errata equivale a massimizzare l'accuratezza e le equazioni nel documento hanno un senso intuitivo.

Ad esempio: usando la notazione del documento, se la vera probabilità condizionata (dato qualche vettore caratteristica x ) della classe di interesse è η = 0,7, qualsiasi previsione q > 0,5 avrebbe una perdita attesa R (η | q ) = 0,7 (0) + 0,3 (1) = 0,3 e qualsiasi q 0,5 avrebbe una perdita attesa di 0,7. La funzione di perdita sarebbe quindi ridotta a q = η = 0,7 e conseguentemente corretta; la generalizzazione all'intera gamma di vere probabilità e previsioni condizionali sembra abbastanza semplice da lì.

Supponendo che i calcoli e le dichiarazioni precedenti siano corretti, gli svantaggi di un minimo non univoco e tutte le previsioni superiori a 0,5 che condividono la stessa perdita minima prevista sono evidenti. Non vedo ancora alcun motivo per utilizzare l'accuratezza rispetto alle alternative tradizionali come il punteggio del registro, il punteggio di Brier, ecc. Tuttavia, è corretto affermare che l'accuratezza è una regola di punteggio corretta quando si valutano i modelli probabilistici in un'impostazione binaria, oppure sto facendo un errore - o nella mia comprensione della perdita di classificazione errata, o nel paragonarla con precisione?

Risposte:


15

TL; DR

La precisione è una regola di punteggio impropria. Non usarlo.

La versione leggermente più lunga

In realtà, l'accuratezza non è nemmeno una regola di punteggio. Quindi chiedere se è (rigorosamente) corretto è un errore di categoria. Il massimo che possiamo dire è che, sotto ipotesi aggiuntive , l'accuratezza è coerente con una regola di punteggio impropria, discontinua e fuorviante. (Non usarlo.)

La tua confusione

La tua confusione deriva dal fatto che la perdita di classificazione errata secondo la carta che citi non è nemmeno una regola di punteggio.

I dettagli: regole di punteggio e valutazioni di classificazione

y{0,1}q^=P^(Y=1)(0,1)P(Y=1)=η>0.5q^

Una regola di punteggio è una mappatura che prende una previsione probabilistica e un risultato in perdita,q^y

s:(q^,y)s(q^,y).

s è corretto se è ottimizzato nelle aspettative di . ("Ottimizzato" di solito significa "minimizzato", ma alcuni autori capovolgono i segni e provano a massimizzare una regola di punteggio.) è strettamente corretto se è ottimizzato nelle aspettative solo da .q^=ηsq^=η

In genere valuteremo su molte previsioni e risultati corrispondentisq^iyi

y^{0,1}

a:(y^,y)a(y^,y)={1,y^=y0,y^y.

Pertanto, l' accuratezza non è una regola di punteggio . È una valutazione di classificazione. (Questo è un termine che ho appena inventato; non andare a cercarlo in letteratura.)

q^y^θ

y^(q^,θ):={1,q^θ0,q^<θ.

θ=0.5q^iyi

q^q^y^=y^(q^,θ)q^

q^=ηθ=0.5q^(0,1)

y^q^

q^θθ=0.5q^=0.99q^θq^η

θ=0.2y=1y=0q^q^=0.25q^θ

Pertanto, l'accuratezza o la perdita di classificazione errata possono essere fuorvianti.

Inoltre, l'accuratezza e la perdita di classificazione errata sono improprie in base alle ipotesi aggiuntive in situazioni più complesse in cui i risultati non sono indicati. Frank Harrell, nel suo post sul blog danni causati dalla classificazione Precisione e Altro Accuracy improprio discontinuo Regole punteggio cita un esempio da uno dei suoi libri in cui utilizzano accuratezza o errata classificazione perdita porterà ad un modello misspecified, dal momento che sono non ottimizzati per il corretto predittivo condizionale probabilità.

θ

Maggiori informazioni sono disponibili in Perché l'accuratezza non è la misura migliore per valutare i modelli di classificazione? .

La linea di fondo

Non usare la precisione. Né perdita di classificazione errata.

Il nitpick: "rigoroso" vs. "rigorosamente"

Dovremmo parlare di regole di rigore "rigorose" o di regole di rigore "rigorosamente"? "Rigoroso" modifica "corretto", non "regola del punteggio". (Esistono "regole di punteggio adeguate" e "regole di punteggio rigorosamente appropriate", ma non "regole di punteggio rigorose".) In quanto tali, "rigorosamente" dovrebbe essere un avverbio, non un aggettivo e "rigorosamente" dovrebbe essere usato. Come è più comune in letteratura, ad esempio i lavori di Tilmann Gneiting.


Ci sono molti aspetti del tuo post che non seguo (o che ritengo non siano rilevanti per la domanda che ho posto), ma iniziamo con "la perdita di classificazione errata secondo il documento che citi non è una regola di punteggio". La formula è data molto chiaramente nel documento: L1 (1-q) = 1 [q <= 0,5] (perdona la formattazione scadente). È, a tutti gli effetti pratici, una funzione di passaggio che mappa direttamente qualsiasi previsione probabilistica e il suo risultato associato a una perdita di 0 o 1. Inoltre, 0,5 è solo un parametro che controlla dove si verifica il passaggio; Non riesco a vedere il "presupposto" coinvolto. In che modo questa non è una regola di punteggio?
Zyzzva,

1
q

1
Per quanto riguarda il commento di pertinenza, mi scuso se è venuto dalla parte sbagliata. Ho cercato di focalizzare l'ambito della domanda in modo specifico sull'opportuno contro l'improprio, non discontinuo / fuorviante / ecc. Conosco bene i collegamenti forniti e non ho problemi con i tuoi commenti sui costi di classificazione errata o sui profitti. Sto solo cercando una spiegazione più rigorosa dell'affermazione "l'accuratezza è impropria", soprattutto perché questo documento suggerisce diversamente per il caso d'uso comune di risultati binari. Apprezzo il tuo tempo per discuterne con me e condividere i tuoi pensieri dettagliati.
Zyzzva,

1
Dopo un'ulteriore riflessione, penso di avere una comprensione più chiara del punto che stai sollevando. Se consideriamo la stessa funzione di passaggio con il passaggio a 0,6 (corrispondente alla classificazione a una soglia di 0,6), la regola del punteggio non è corretta, poiché la perdita prevista non sarà più minimizzata da una previsione q = n per n nell'intervallo [ 0,5, 0,6]. Più in generale, sarà improprio ad ogni soglia diversa da 0,5, e spesso in pratica vogliamo usare altre soglie a causa dei costi asimmetrici di classificazione errata, come hai sottolineato.
Zyzzva,

1
Concordo sul fatto che l'accuratezza sia chiaramente una cattiva metrica per la valutazione delle probabilità, anche quando una soglia di 0,5 è giustificata. Ho detto tanto alla fine del post originale che ho scritto, ma questo mi ha aiutato a chiarire i dettagli specifici con cui ho avuto problemi - vale a dire, riconciliare qualcosa che ho frainteso mostrando che l'accuratezza è corretta per i risultati binari (quando in realtà lo è solo si applica al caso molto specifico di una soglia di 0,5) con la frase apparentemente in bianco e nero "l'accuratezza è impropria" che ho visto molto. Grazie per l'aiuto e la pazienza.
Zyzzva,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.