Perché la misura F è una media armonica e non una media aritmetica delle misure di precisione e richiamo?


88

Quando calcoliamo la misura F considerando sia Precisione che Richiamo, prendiamo la media armonica delle due misure invece di una semplice media aritmetica.

Qual è la ragione intuitiva che sta dietro a prendere la media armonica e non una semplice media?


1
L'intuizione è bilanciare precisione e richiamo (di solito la misurazione migliore, ma in alcuni casi si desidera massimizzare la precisione o il richiamo, che è una storia diversa). Non puoi ottenere un punteggio f alto se uno dei due è molto basso.
greeness

1
cse.unsw.edu.au/~teachadmin/info/harmonic3.html Questa è una buona risorsa per comprendere HM
Sudip Bhandari

2
Correggi il link sopra: di.unipi.it/~bozzo/The%20Harmonic%20Mean.htm o l'originale @ archive.org
stason

Risposte:


16

Qui abbiamo già alcune risposte elaborate, ma ho pensato che alcune informazioni in più a riguardo sarebbero state utili per alcuni ragazzi che vogliono approfondire (soprattutto perché misura F).

Secondo la teoria della misurazione, la misura composita dovrebbe soddisfare le seguenti 6 definizioni:

  1. Connettività (è possibile ordinare due coppie) e transitività (se e1> = e2 ed e2> = e3 allora e1> = e3)
  2. Indipendenza: due componenti contribuiscono indipendentemente ai loro effetti all'efficacia.
  3. Condizione di Thomsen: dato che a un richiamo costante (precisione) troviamo una differenza di efficacia per due valori di precisione (richiamo), questa differenza non può essere rimossa o invertita modificando il valore costante.
  4. Risolvibilità limitata.
  5. Ogni componente è essenziale: la variazione in uno lasciando costante l'altro dà una variazione di efficacia.
  6. Proprietà di Archimede per ogni componente. Garantisce semplicemente che gli intervalli su un componente siano comparabili.

Possiamo quindi derivare e ottenere la funzione dell'efficacia: inserisci qui la descrizione dell'immagine

E normalmente non usiamo l'efficacia ma il punteggio F molto più semplice perché :
inserisci qui la descrizione dell'immagine

Ora che abbiamo la formula generale della misura F:

inserisci qui la descrizione dell'immagine

dove possiamo mettere più enfesi sul richiamo o sulla precisione impostando beta, perché beta è definito come segue:

inserisci qui la descrizione dell'immagine

Se ponderiamo il ricordo più importante della precisione (tutti i rilevanti sono selezionati) possiamo impostare beta come 2 e otteniamo la misura F2. E se facciamo il contrario e la precisione del peso è maggiore del richiamo (quanti più elementi selezionati sono rilevanti possibile, ad esempio in alcuni scenari di correzione degli errori grammaticali come CoNLL ) impostiamo semplicemente beta come 0,5 e otteniamo la misura F0,5. E ovviamente possiamo impostare beta come 1 per ottenere la misura F1 maggiormente utilizzata (media armonica di precisione e richiamo).

Penso di aver già risposto in qualche misura al motivo per cui non usiamo la media aritmetica.

Riferimenti:

  1. https://en.wikipedia.org/wiki/F1_score
  2. La verità della misura F.
  3. Ritiro delle informazioni

100

Per spiegare, si consideri ad esempio, qual è la media di 30 mph e 40 mph? se guidi per 1 ora a ciascuna velocità, la velocità media nelle 2 ore è effettivamente la media aritmetica, 35 mph.

Tuttavia, se guidi per la stessa distanza a ciascuna velocità, ad esempio 10 miglia, la velocità media su 20 miglia è la media armonica di 30 e 40, circa 34,3 mph.

Il motivo è che affinché la media sia valida, è davvero necessario che i valori siano nelle stesse unità in scala. Le miglia orarie devono essere confrontate sullo stesso numero di ore; per confrontare lo stesso numero di miglia è necessario invece la media delle ore per miglio, che è esattamente ciò che fa la media armonica.

Precisione e richiamo hanno entrambi veri positivi al numeratore e denominatori diversi. Per mediarli ha senso solo mediare i loro reciproci, quindi la media armonica.


7
Grazie, questo è un buon argomento sul motivo per cui questo è supportato dalla teoria; la mia risposta è stata più pragmatica.
HA USCIATO - Anony-Mousse

78

Perché punisce di più i valori estremi.

Considera un metodo banale (es. Restituendo sempre la classe A). Ci sono infiniti elementi di dati di classe B e un singolo elemento di classe A:

Precision: 0.0
Recall:    1.0

Quando si prende la media aritmetica, sarebbe corretto al 50%. Nonostante sia il peggior risultato possibile! Con la media armonica, la misura F1 è 0.

Arithmetic mean: 0.5
Harmonic mean:   0.0

In altre parole, per avere un F1 alto, è necessario avere sia un'elevata precisione che un richiamo.


Quando il richiamo è 0,0 la precisione deve essere maggiore di 0,0 giusto? Ma ho capito il punto nel tuo esempio. Ben spiegato - Grazie.
Ragazzo londinese

1
Nel tuo esempio, la precisione per la classe A è 0,5 invece di 0 e il richiamo della classe A è 1; la precisione per la classe B è 0 e il richiamo della classe B è 0 come faremo. Presumo che la tua classe equilibrata significhi che le vere etichette sono A e B; ciascuno si applica al 50% dei dati.
greeness

Facciamo infiniti elementi della classe B e un singolo elemento della classe A. Non cambia la matematica alla base della F1.
HA QUIT - Anony-Mousse

2
Non è solo un'euristica selezionare più equilibrio. La media armonica è l'unico modo sensato date le unità di questi rapporti. La media non avrebbe significato in confronto
Sean Owen

Dove si dice "euristico" e dove differisce il tuo commento dalla mia risposta? Ma: F-measure è un'euristica in quanto presuppone che precisione e richiamo siano ugualmente importanti. Questo è il motivo per cui è necessario scegliere il termine beta: euristicamente, di solito si usa beta = 1.
HA USCIATO - Anony-Mousse

30

Le risposte di cui sopra sono ben spiegate. Questo è solo un riferimento rapido per comprendere la natura della media aritmetica e della media armonica con i grafici. Come puoi vedere dal grafico, considera l'asse X e l'asse Y come precisione e richiamo e l'asse Z come punteggio F1. Quindi, dalla trama della media armonica, sia la precisione che il richiamo dovrebbero contribuire in modo uniforme affinché il punteggio F1 aumenti a differenza della media aritmetica.

Questo è per la media aritmetica.

inserisci qui la descrizione dell'immagine

Questo è per la media armonica.

inserisci qui la descrizione dell'immagine


Utilizza gli strumenti di formattazione per modificare e formattare correttamente la tua risposta. L'immagine dovrebbe essere visualizzata qui, non è un collegamento ipertestuale.
Morse

26

La media armonica è l'equivalente della media aritmetica per i reciproci delle quantità che dovrebbero essere mediate dalla media aritmetica. Più precisamente, con la media armonica, trasformi tutti i tuoi numeri nella forma "mediabile" (prendendo il reciproco), prendi la loro media aritmetica e poi trasformi il risultato nella rappresentazione originale (riprendendo il reciproco).

La precisione e il richiamo sono "naturalmente" reciproci perché il loro numeratore è lo stesso ei loro denominatori sono diversi. Le frazioni sono più sensibili alla media per media aritmetica quando hanno lo stesso denominatore.

Per più intuizione, supponiamo di mantenere costante il numero di elementi positivi veri. Quindi, prendendo la media armonica della precisione e del richiamo, si prende implicitamente la media aritmetica dei falsi positivi e dei falsi negativi. Fondamentalmente significa che i falsi positivi e i falsi negativi sono ugualmente importanti per te quando i veri positivi rimangono gli stessi. Se un algoritmo ha N più elementi falsi positivi ma N meno falsi negativi (pur avendo gli stessi veri positivi), la misura F rimane la stessa.

In altre parole, la misura F è adatta quando:

  1. gli errori sono ugualmente negativi, siano essi falsi positivi o falsi negativi
  2. il numero di errori è misurato rispetto al numero di veri positivi
  3. i veri negativi non sono interessanti

Il punto 1 può o non può essere vero, ci sono varianti ponderate della misura F che possono essere utilizzate se questa ipotesi non è vera. Il punto 2 è abbastanza naturale poiché possiamo aspettarci che i risultati vengano ridimensionati se classifichiamo sempre più punti. I numeri relativi dovrebbero rimanere gli stessi.

Il punto 3 è piuttosto interessante. In molte applicazioni i negativi sono l'impostazione predefinita naturale e può anche essere difficile o arbitrario specificare ciò che conta veramente come un vero negativo. Ad esempio, un allarme antincendio ha un vero evento negativo ogni secondo, ogni nanosecondo, ogni volta che è trascorso il tempo di Planck, ecc. Anche un pezzo di roccia ha questi veri eventi negativi di rilevamento incendio tutto il tempo.

O in un caso di rilevamento del volto, la maggior parte delle volte " non restituisci correttamente " miliardi di possibili aree nell'immagine, ma questo non è interessante. I casi interessanti sono quando si fa restituire un rilevamento proposto o quando si dovrebbe restituirlo.

Al contrario, l'accuratezza della classificazione si preoccupa allo stesso modo dei veri positivi e dei veri negativi ed è più adatta se il numero totale di campioni (eventi di classificazione) è ben definito e piuttosto piccolo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.