Misura delle prestazioni del classificatore che combina sensibilità e specificità?


9

Ho dati etichettati di 2 classi su cui sto eseguendo la classificazione utilizzando più classificatori. E i set di dati sono ben bilanciati. Nel valutare le prestazioni dei classificatori, devo prendere in considerazione l'accuratezza del classificatore nel determinare non solo i veri positivi, ma anche i veri negativi. Pertanto, se uso l'accuratezza e se il classificatore è orientato verso i positivi e classifica tutto come positivo, otterrò un'accuratezza del 50% circa, anche se non è riuscito a classificare i veri negativi. Questa proprietà è estesa alla precisione e al richiamo poiché si concentrano su una sola classe e, a loro volta, al punteggio di F1. (Questo è ciò che capisco anche da questo documento, ad esempio " Oltre l'accuratezza, il punteggio F e il ROC: una famiglia di misure discriminanti per la valutazione delle prestazioni ").

Pertanto, posso usare la sensibilità e la specificità (TPR e TNR) per vedere come si è comportato il classificatore per ogni classe, dove mirano a massimizzare questi valori.

La mia domanda è che sto cercando una misura che combini entrambi questi valori in una misura significativa . Ho esaminato le misure fornite in quel documento, ma l'ho trovato non banale. E in base alla mia comprensione, mi chiedevo perché non potessimo applicare qualcosa come il punteggio F, ma invece di usare la precisione e il richiamo avrei usato sensibilità e specificità? Quindi la formula sarebbe e il mio obiettivo sarebbe massimizzare questa misura. Trovo che sia molto rappresentativo. Esiste già una formula simile? E questo avrebbe senso o è matematicamente sano?

my Performance Measure=2sensitivityspecificitysensitivity+specificity

Risposte:


1

Direi che potrebbe non esserci alcuna misura particolare o unica che dovresti prendere in considerazione.

L'ultima volta che ho fatto la classificazione probabilistica avevo un pacchetto R ROCR e valori di costo espliciti per i falsi positivi e i falsi negativi.

Ho considerato tutti i punti di taglio da 0 a 1 e ho usato molte misure come il costo atteso quando ho selezionato questo punto di taglio. Naturalmente avevo già una misura AUC per la misura generale dell'accuratezza della classificazione. Ma per me questa non era l'unica possibilità.

I valori per i casi FP e FN devono uscire dal tuo modello particolare, forse sono forniti da un esperto in materia?

Ad esempio, nell'analisi di abbandono del cliente potrebbe essere più costoso dedurre erroneamente che il cliente non sta agitando, ma anche che sarà costoso dare una riduzione generale dei prezzi per i servizi senza essere precisi per indirizzarli a gruppi corretti.

-Analista


In realtà per il mio caso è un po 'simile. Perché i casi FP e FN saranno costosi nel mio modello. Alla fine ho finito per fare qualcosa di simile a quello che mi hai suggerito di "utilizzare più misure". Ho calcolato il punteggio F per ciascuna etichetta di classe e per valutare i modelli utilizzo entrambi questi valori insieme a una funzione di costo che utilizza la precisione (per entrambe le classi) per calcolare il profitto e sottrae da esso la perdita derivante dai casi FP e FN.
Kalaji,

3

Accuratezza, sensibilità, specificità della classificazione e qualsiasi loro semplice combinazione sono regole di punteggio improprie. Cioè, sono ottimizzati da un modello falso. Usarli ti farà scegliere le caratteristiche sbagliate, dare i pesi sbagliati e prendere decisioni non ottimali. Uno dei molti modi in cui le decisioni non sono ottimali è la falsa fiducia che si ottiene quando le probabilità previste si avvicinano alla soglia implicita dall'uso di queste misure. In breve, tutto ciò che può andare storto va storto con queste misure. Usarli per confrontare anche due modelli ben montati ti fuorvia.


1
Sono d'accordo che qualsiasi modello generato sia un "modello fasullo", come hai menzionato. Ma ho ancora bisogno di una misura per valutarne la qualità, per scegliere un modello alla fine. Supponendo che le mie funzionalità siano già state selezionate (provando più set di dati con diversi set di funzionalità) e sto usando una convalida incrociata 5 volte per determinare se i miei classificatori stanno adattando eccessivamente i dati, queste semplici "regole di punteggio" sono le più ampiamente usato in letteratura. Quali altre misure suggeriresti allora? La maggior parte delle misure si basa su combinazioni di questi valori tra cui LR +/-, ROC e AUC.
Kalaji,

Prima di tutto stai attento a ripetere da zero tutti i passaggi esplorativi / di modellazione per ciascuno dei 5 adattamenti del modello utilizzati nel cv 5 volte? La misura della qualità del gold standard è la probabilità di log e le quantità che ne derivano come e devianza. Per binario questo porta a una regola di punteggio di probabilità logaritmica. In tal caso è anche possibile utilizzare un altro punteggio corretto, il punteggio Brier (errore quadratico medio nelle probabilità previste). YR2Y
Frank Harrell,

In base alla mia lettura, ciò si applica nel caso in cui i miei modelli generino probabilità anziché valori discreti (ovvero una probabilità che un'istanza appartenga alla classe 0 o 1 invece di emettere 0 o 1). E a sua volta, ciò ha avuto a che fare con l'implementazione dei classificatori, ad esempio si applica a un classificatore Naive Bayes ma non a un classificatore 1-NN. Nota che non sto implementando i classificatori, sto usando alcuni classificatori in Weka per generare i miei modelli. Forse sono un po 'confuso qui. Grazie.
Kalaji,

1
Se il metodo che stai utilizzando non produce probabilità, ti suggerisco di trovare un altro metodo.
Frank Harrell,

Se ci sono differenze ben note tra il costo effettivo di precisione e sensibilità (non applicabile al post originale), perché dovresti evitare di usarle? Sarebbe preferibile un errore di entropia parziale di parte (ad esempio, la penalità del termine (1-c) * log (1-p) è raddoppiata)?
Max Candocia,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.