La misura f è sinonimo di precisione?

Comprendo che la misura f (basata su precisione e richiamo) è una stima della precisione di un classificatore. Inoltre, quando si dispone di un set di dati non bilanciato, si preferisce la misura f rispetto alla precisione . Ho una semplice domanda (che riguarda più l'uso corretto della terminologia che la tecnologia). Ho un set di dati sbilanciato e utilizzo f-measure nei miei esperimenti. Sto per scrivere un documento che NON è per una conferenza di machine learning / data mining. Quindi, posso fare riferimento a f-misura sinonimo di precisione in questo contesto. Ad esempio, ho una f-misura di 0,82, quindi posso dire che il mio classificatore ottiene previsioni accurate dell'82%?

— Annamalai N
fonte

Sarebbe meglio introdurre la misura f se la usi. Sostituire i due non è corretto dal mio punto di vista. Nel tuo caso, se la tua precisione è del 99% otterrai previsioni accurate del 99%, non importa quale sia la tua f-misura, e ciò potrebbe causare errori ai lettori.

— AdrienNK,

@AdrienNK: l'accuratezza del 99% non implica previsioni corrette del 99% a meno che le frequenze relative dei casi di test siano le stesse della situazione reale dell'applicazione.

— cbeleites insoddisfatto di SX

@cbeleites hai ragione, lo so, ma spesso i casi di test sono emessi dalla stessa distribuzione (beh, forse questa è la visione distorta che ho di essa perché raramente ho dovuto lavorare con dati su cui non era il caso)

— AdrienNK,

@AdrienNK: sono un chimico analitico che lavora per le diagnosi mediche. La prevalenza della malattia in questione può variare riguardo agli ordini di grandezza tra diverse sottopopolazioni di pazienti. Vedi ad esempio la discussione dei diversi PPV nella seconda metà di questo articolo: nature.com/news/2011/110323/full/471428a.html

— cbeleites insoddisfatti di SX

È stata una lettura affascinante, grazie per averlo portato alla mia attenzione.

— AdrienNK,

Risposte:

Prima di tutto, trovo che la "precisione" a volte sia un po 'fuorviante, in quanto si riferisce a cose distinte:

Il termine accuratezza nel geneale per la valutazione di sistemi o metodi (sono chimico analitico) si riferisce alla distorsione delle previsioni, ovvero risponde alla domanda su come siano in media buone previsioni.

Come sapete, ci sono molte diverse misure di prestazione che rispondono a diversi aspetti delle prestazioni per i classificatori. Uno di questi sembra essere chiamato anche accuratezza. Se il tuo documento non è per un pubblico di apprendimento / classificazione automatico, raccomando di chiarire questa distinzione. Anche per questo significato più specifico di accuratezza sarei molto esplicito di ciò che chiamo accuratezza poiché potrebbero verificarsi di nuovo diversi modi di gestire lo squilibrio di classe. In genere, lo squilibrio di classe viene ignorato, portando al noto calcolo . Tuttavia, è anche possibile utilizzare la media di sensibilità e specificità, che equivale a controllare lo squilibrio di classe ponderando la media. $\frac{TP+TN}{all~cases}$

Il punteggio F viene spesso introdotto come media armonica di precisione e richiamo (o valore predittivo positivo e sensibilità). Per la tua domanda, penso che sia utile spiegarlo ulteriormente e semplificarlo:

$F = \frac{2 \cdot precision \cdot recall}{precision + recall} = \frac{2 \frac{TP}{all~P} \frac{TP}{all T}}{\frac{TP}{all~P} + \frac{TP}{all T}} = \frac{2 \frac{TP^2}{all~P \cdot all T}}{\frac{TP \cdot all~T}{all~P \cdot all T} + \frac{TP \cdot all~P}{all~P \cdot all T}} = \frac{2~TP^2}{TP \cdot all~T + TP \cdot all~P} = \frac{2~TP}{all~T + all~P}$

L'ultima espressione non è una frazione di nulla che io possa pensare a un determinato gruppo di casi di test. In particolare, si prevede una (pesante) sovrapposizione tra i casi VERO e POSITIVO. Ciò mi impedirebbe di esprimere un punteggio F in percentuale in quanto tale tipo implica una proporzione di casi. In realtà, penso che avvertirei il lettore che F-score non ha una tale interpretazione.

— cbeleites insoddisfatto di SX
fonte

più specificamente questa è la misura . Il punteggio F può essere generalizzato con un parametro separato

F_{1}

$F_1$

— qwr

Risposta rapida:

No, la F-measureformula non è un TNfattore ed è utile per recuperare i problemi ^(doc) .

Pertanto, è ( F-measure) l'approccio corretto per valutare i set di dati non bilanciati o nel caso di problemi di recupero anziché accuracye ROC.

Accuracy = (TP+TN) / (TP+FP+FN+TN)

F1_Score = 2*(Recall * Precision) / (Recall + Precision)
# or
F1_Score = 2*TP / (2*TP + FP + FN)

[ NOTA ]:

Precision = TP / (TP+FP)

Recall = TP / (TP+FN)

— Benyamin Jafari
fonte