Il significato intuitivo più vicino del punteggio f1 viene percepito come la media del richiamo e della precisione. Cancelliamolo per te:
In un'attività di classificazione, potresti avere in programma di costruire un classificatore con alta precisione E richiamo. Ad esempio, un classificatore che dice se una persona è onesta o no.
Per la precisione, di solito sei in grado di dire con precisione quante persone oneste là fuori in un determinato gruppo. In questo caso, quando ti preoccupi dell'alta precisione, supponi di poter classificare erroneamente una persona bugiarda come onesta ma non spesso. In altre parole, qui stai cercando di identificare il bugiardo dall'onesto come un intero gruppo.
Tuttavia, per ricordare, sarai davvero preoccupato se pensi che una persona bugiarda sia sincera. Per te, questa sarà una grande perdita e un grande errore e non vorrai farlo di nuovo. Inoltre, va bene se hai classificato qualcuno onesto come bugiardo, ma il tuo modello non dovrebbe mai (o soprattutto non farlo) dichiarare onesto un bugiardo. In altre parole, qui ti stai concentrando su una classe specifica e stai cercando di non sbagliare.
Ora, prendiamo il caso in cui desideri che il tuo modello (1) identifichi esattamente onesto da un bugiardo (precisione) (2) identifichi ciascuna persona di entrambe le classi (richiamo). Ciò significa che selezionerai il modello che funzionerà bene su entrambe le metriche.
La decisione di selezione del modello proverà quindi a valutare ciascun modello in base alla media delle due metriche. Il punteggio F è il migliore in grado di descriverlo. Diamo un'occhiata alla formula:
Richiama: p = tp / (tp + fp)
Richiama: r = tp / (tp + fn)
Punteggio F: fscore = 2 / (1 / r + 1 / p)
Come vedi, maggiore è il richiamo E la precisione, maggiore è il punteggio F.