Perché la misura F è preferita per le attività di classificazione?


9

Perché la misura F viene solitamente utilizzata per attività di classificazione (supervisionate), mentre la misura G (o indice di Fowlkes-Mallows) viene generalmente utilizzata per attività di clustering (senza supervisione)?

La misura F è la media armonica della precisione e del richiamo .

La misura G (o indice di Fowlkes-Mallows) è la media geometrica della precisione e del richiamo .

Di seguito è riportato un diagramma dei diversi mezzi.

inserisci qui la descrizione dell'immagine

F1 (armonica) =2precisionrecallprecision+recall

Geometrico =precisionrecall

Aritmetica =precision+recall2

Il motivo per cui chiedo è che devo decidere quale media utilizzare in un'attività NLG, in cui ho misurato BLEU e ROUGE (dove BLEU equivale a precisione e ROUGE da ricordare). Come devo calcolare la media di questi punteggi?


Forse è proprio come va la definizione!
Aditya,

1
@Aditya, hai ragione, era solo una domanda mal formulata sulla definizione. L'ho modificato riformulandolo in qualcosa di più concreto.
Bruno Lubascher,

Risposte:


3

Il punteggio FI è preferito alla semplice precisione di classificazione al fine di contrastare il problema dei set di dati sbilanciati; se la cosa che stai cercando si verifica solo raramente, un ingenuo classificatore può sempre dire di no e sembra funzionare molto bene! Una variante su Fı è Fß, dove

Fß = (1 + ß²) × ​​[(P × R) ÷ ((ß² × P) + R)]

Varia ß per bilanciare precisione e richiamo. Quanto al perché F o G, credo che sia empirico: non dici se stai classificando o raggruppando nella tua stessa applicazione?


2
Grazie per la risposta, ma penso che ti sia sfuggita la mia domanda. Non intendo confrontare la precisione tra F1 e semplice. , invece, intendo confrontare le medie armoniche vs geometriche vs aritmetiche . Non sto eseguendo la classificazione tradizionale o il raggruppamento, ho un compito NLG , che è misurato in BLEU e ROUGE che potrebbe essere mediato con uno dei mezzi, ma non sono sicuro quale scegliere.
Bruno Lubascher,

-2

Se Precisione e Richiamo sono simili, F1 è una buona misura singola per confrontare diversi modelli.

Breve e dolce :)


1
Non vedo come hai nemmeno tentato di rispondere alla mia domanda ...
Bruno Lubascher,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.