Come interpretare i valori di misura F?


41

Vorrei sapere come interpretare una differenza di valori di f-measure. So che la misura f è una media equilibrata tra precisione e richiamo, ma sto chiedendo il significato pratico di una differenza nelle misure F.

Ad esempio, se un classificatore C1 ha un'accuratezza di 0,4 e un altro classificatore C2 un'accuratezza di 0,8, allora possiamo dire che C2 ha classificato correttamente il doppio degli esempi di test rispetto a C1. Tuttavia, se un classificatore C1 ha una misura F di 0,4 per una determinata classe e un altro classificatore C2 una misura di F di 0,8, cosa possiamo dire sulla differenza di prestazioni dei 2 classificatori? Possiamo dire che C2 ha classificato X più istanze correttamente rispetto a C1?


2
Non sono sicuro che si possa dire molto poiché la misura F è funzione sia di precisione che di richiamo: en.wikipedia.org/wiki/F1_score . Puoi fare la matematica e mantenere una (precisione o richiamo) costante e dire qualcosa sull'altra.
Nick,

Risposte:


41

Non riesco a pensare a un significato intuitivo della misura F, perché è solo una metrica combinata. Ciò che è più intuitivo di F-mesure, ovviamente, è precisione e richiamo.

Ma usando due valori, spesso non possiamo determinare se un algoritmo è superiore a un altro. Ad esempio, se un algoritmo ha una precisione maggiore ma un richiamo inferiore rispetto ad altri, come si può sapere quale algoritmo è migliore?

Se hai in mente un obiettivo specifico come 'La precisione è il re. Non mi interessa molto il richiamo ', quindi non ci sono problemi. Maggiore precisione è migliore. Ma se non hai un obiettivo così forte, vorrai una metrica combinata. Questa è la misura F. Usandolo, confronterai un po 'di precisione e un po' di richiamo.

La curva ROC viene spesso tracciata indicando la misura F. Questo articolo può essere interessante in quanto contiene spiegazioni su diverse misure, tra cui le curve ROC: http://binf.gmu.edu/mmasso/ROC101.pdf


23

L'importanza del punteggio F1 è diversa in base allo scenario. Supponiamo che la variabile target sia un'etichetta binaria.

  • Classe bilanciata: in questa situazione, il punteggio F1 può essere effettivamente ignorato, il tasso di classificazione errata è la chiave.
  • Classe sbilanciata, ma entrambe le classi sono importanti: se la distribuzione delle classi è molto distorta (come 80:20 o 90:10), un classificatore può ottenere un basso tasso di classificazione errata semplicemente scegliendo la classe di maggioranza. In una situazione del genere, sceglierei il classificatore che ottiene punteggi F1 elevati su entrambe le classi, nonché un basso tasso di classificazione errata. Un classificatore che ottiene bassi punteggi F1 dovrebbe essere trascurato.
  • Classe sbilanciata, ma una classe se più importante dell'altra. Ad esempio, nel rilevamento delle frodi, è più importante etichettare correttamente un'istanza come fraudolenta, anziché etichettare quella non fraudolenta. In questo caso, sceglierei il classificatore che ha un buon punteggio F1 solo sulla classe importante . Ricorda che il punteggio F1 è disponibile per classe.

9

La misura F ha un significato intuitivo. Ti dice quanto è preciso il tuo classificatore (quante istanze classifica correttamente), così come è robusto (non manca un numero significativo di istanze).

Con alta precisione ma basso richiamo, il tuo classificatore è estremamente preciso, ma manca un numero significativo di istanze che sono difficili da classificare. Questo non è molto utile

Dai un'occhiata a questo istogramma. inserisci qui la descrizione dell'immagineIgnora il suo scopo originale.

Verso destra, ottieni alta precisione, ma basso richiamo. Se seleziono solo istanze con un punteggio superiore a 0,9, le mie istanze classificate saranno estremamente precise, tuttavia mi perderò un numero significativo di istanze. Gli esperimenti indicano che il punto debole qui è di circa 0,76, dove la misura F è di 0,87.


5

La misura F è la media armonica della tua precisione e del tuo richiamo. Nella maggior parte dei casi, hai un compromesso tra precisione e richiamo. Se ottimizzi il tuo classificatore per aumentarne uno e sfavorire l'altro, la media armonica diminuisce rapidamente. È comunque più grande quando precisione e richiamo sono uguali.

Dati i valori F di 0,4 e 0,8 per i tuoi classificatori, puoi aspettarti che questi siano i valori massimi raggiunti quando si valuta la precisione rispetto al richiamo.

Per riferimento visivo, dai un'occhiata a questa figura di Wikipedia :

inserisci qui la descrizione dell'immagine

La misura F è H , A e B sono richiamo e precisione. Puoi aumentarne uno, ma poi l'altro diminuisce.


Ho trovato la visualizzazione "Scale incrociate" per essere un po 'più semplice - per me, rende l'uguaglianza di A = B risultante nella più grande H più intuitiva
Coruscate5

3

La formula per la misura F (F1, con beta = 1) è la stessa della formula che fornisce la resistenza equivalente composta da due resistenze poste in parallelo in fisica (dimenticando il fattore 2).

Questo potrebbe darti una possibile interpretazione e puoi pensare a resistenze sia elettroniche che termiche. Questa analogia definirebbe la misura F come la resistenza equivalente formata da sensibilità e precisione poste in parallelo.

Per la misura F, il massimo possibile è 1 e perdi resistenza non appena uno tra due perde anche resistenza (vale a dire, ottieni un valore inferiore a 1). Se vuoi capire meglio questa quantità e la sua dinamica, pensa al fenomeno fisico. Ad esempio, sembra che la misura F <= max (sensibilità, precisione).


3

Fβ-1/β2

P=TPTP+FP
R=TPTP+FN
α
α1-RR+1-PP.
-αFββ2

1

Fβ=1/((β2/(β2+1))1/r+(1/(β2+1))1/p)
cosi quando β2<1, p dovrebbe essere più importante (o, più grande, per ottenere un livello più alto Fβ).

0

Il significato intuitivo più vicino del punteggio f1 viene percepito come la media del richiamo e della precisione. Cancelliamolo per te:

In un'attività di classificazione, potresti avere in programma di costruire un classificatore con alta precisione E richiamo. Ad esempio, un classificatore che dice se una persona è onesta o no.

Per la precisione, di solito sei in grado di dire con precisione quante persone oneste là fuori in un determinato gruppo. In questo caso, quando ti preoccupi dell'alta precisione, supponi di poter classificare erroneamente una persona bugiarda come onesta ma non spesso. In altre parole, qui stai cercando di identificare il bugiardo dall'onesto come un intero gruppo.

Tuttavia, per ricordare, sarai davvero preoccupato se pensi che una persona bugiarda sia sincera. Per te, questa sarà una grande perdita e un grande errore e non vorrai farlo di nuovo. Inoltre, va bene se hai classificato qualcuno onesto come bugiardo, ma il tuo modello non dovrebbe mai (o soprattutto non farlo) dichiarare onesto un bugiardo. In altre parole, qui ti stai concentrando su una classe specifica e stai cercando di non sbagliare.

Ora, prendiamo il caso in cui desideri che il tuo modello (1) identifichi esattamente onesto da un bugiardo (precisione) (2) identifichi ciascuna persona di entrambe le classi (richiamo). Ciò significa che selezionerai il modello che funzionerà bene su entrambe le metriche.

La decisione di selezione del modello proverà quindi a valutare ciascun modello in base alla media delle due metriche. Il punteggio F è il migliore in grado di descriverlo. Diamo un'occhiata alla formula:

Richiama: p = tp / (tp + fp)

Richiama: r = tp / (tp + fn)

Punteggio F: fscore = 2 / (1 / r + 1 / p)

Come vedi, maggiore è il richiamo E la precisione, maggiore è il punteggio F.


0

Sapendo che il punteggio F1 è un mezzo armonico di precisione e richiamo, di seguito è riportato un breve riassunto su di essi.

Direi Recall è più su falsi negativi .IE, Avere un alto richiamo significa che ci sono meno falsi negativi .

Richiamare=tptp+fn

Per quanto meno FN o Zero FN significino, la previsione del tuo modello è davvero buona.

Considerando che avere una precisione maggiore significa, ci sono meno FALSE POSITIVI

Precisione=tptp+fp

Lo stesso qui, meno o zero falsi positivi significa che la previsione del modello è davvero buona.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.