Recentemente ho imparato a conoscere le regole di punteggio adeguate per i classificatori probabilistici. Numerosi thread su questo sito Web hanno sottolineato come l'accuratezza sia una regola di punteggio impropria e non dovrebbe essere utilizzata per valutare la qualità delle previsioni generate da un modello probabilistico come la regressione logistica.
Tuttavia, alcuni articoli accademici che ho letto hanno dato la perdita di classificazione errata come esempio di una regola di punteggio corretta (non rigorosa) in un ambiente di classificazione binaria. La spiegazione più chiara che ho trovato è stata in questo documento , in fondo a pagina 7. Per quanto ne so , minimizzare la perdita di classificazione errata equivale a massimizzare l'accuratezza e le equazioni nel documento hanno un senso intuitivo.
Ad esempio: usando la notazione del documento, se la vera probabilità condizionata (dato qualche vettore caratteristica x ) della classe di interesse è η = 0,7, qualsiasi previsione q > 0,5 avrebbe una perdita attesa R (η | q ) = 0,7 (0) + 0,3 (1) = 0,3 e qualsiasi q 0,5 avrebbe una perdita attesa di 0,7. La funzione di perdita sarebbe quindi ridotta a q = η = 0,7 e conseguentemente corretta; la generalizzazione all'intera gamma di vere probabilità e previsioni condizionali sembra abbastanza semplice da lì.
Supponendo che i calcoli e le dichiarazioni precedenti siano corretti, gli svantaggi di un minimo non univoco e tutte le previsioni superiori a 0,5 che condividono la stessa perdita minima prevista sono evidenti. Non vedo ancora alcun motivo per utilizzare l'accuratezza rispetto alle alternative tradizionali come il punteggio del registro, il punteggio di Brier, ecc. Tuttavia, è corretto affermare che l'accuratezza è una regola di punteggio corretta quando si valutano i modelli probabilistici in un'impostazione binaria, oppure sto facendo un errore - o nella mia comprensione della perdita di classificazione errata, o nel paragonarla con precisione?