F1 / Dice-Score vs IoU


24

Ero confuso sulle differenze tra il punteggio di F1, il punteggio dei dadi e l'IoU (intersezione sull'unione). Ormai ho scoperto che F1 e Dice significano la stessa cosa (giusto?) E IoU ha una formula molto simile alle altre due.

  • F1 / Dadi:
    2TP2TP+FP+FN
  • IoU / Jaccard:
    TPTP+FP+FN

Ci sono differenze pratiche o altre cose degne di nota se non che la F1 pesa di più i veri positivi? C'è una situazione in cui userei l'una ma non l'altra?


Apparentemente il coefficiente di Jaccard è anche lo stesso di IoU
pietz

Sarei particolarmente interessato se alcune di queste misurazioni (ora 4) sono pensate solo per dati binari.
pietz,

Risposte:


38

Sei sulla strada giusta.

F/2iooUF

iooU/F=1/2+iooU/2

Ma c'è un'affermazione più forte che può essere fatta per l'applicazione tipica della classificazione alla machine learning. Per qualsiasi "verità fondamentale" fissa, le due metriche sono sempre positivamente correlate. Ciò significa che se il classificatore A è migliore di B sotto una metrica, è anche meglio del classificatore B sotto l'altra metrica.

È allettante quindi concludere che le due metriche sono funzionalmente equivalenti, quindi la scelta tra loro è arbitraria, ma non così veloce! Il problema si presenta quando si prende il punteggio medio su una serie di inferenze . Quindi la differenza emerge quando si quantifica quanto il classificatore B sia peggio di A per ogni dato caso.

In generale, la metrica IoU tende a penalizzare quantitativamente le singole istanze di classificazione errata più del punteggio F anche quando possono entrambi concordare sul fatto che questa istanza è negativa. Analogamente a come L2 può penalizzare gli errori maggiori più di L1, la metrica IoU tende ad avere un effetto di "quadratura" sugli errori relativi al punteggio F. Quindi il punteggio F tende a misurare qualcosa di più vicino alla prestazione media, mentre il punteggio IoU misura qualcosa di più vicino alla prestazione del caso peggiore.

Supponiamo ad esempio che la stragrande maggioranza delle inferenze sia moderatamente migliore con il classificatore A rispetto a B, ma alcune di esse sono significativamente peggiori usando il classificatore A. Potrebbe essere il caso quindi che la metrica F favorisca il classificatore A mentre la metrica IoU favorisce classificatore B.

A dire il vero, entrambe queste metriche sono molto più simili di quanto non siano diverse. Ma entrambi soffrono di un altro svantaggio dal punto di vista di prendere le medie di questi punteggi su molte inferenze: entrambi sopravvalutano l'importanza degli insiemi con insiemi positivi di verità di terra praticamente nulla. Nell'esempio comune di segmentazione delle immagini, se un'immagine ha solo un singolo pixel di qualche classe rilevabile e il classificatore rileva quel pixel e un altro pixel, il suo punteggio F è un minimo di 2/3 e l'IoU è anche peggio di 1 / 2. Errori fondamentali come questi possono dominare seriamente il punteggio medio acquisito su una serie di immagini. In breve, pondera ogni errore di pixel inversamente proporzionalmente alla dimensione dell'insieme selezionato / rilevante anziché trattarli allo stesso modo.

c0c1


Willem, non avrei potuto chiedere una risposta migliore. grazie mille per aver dedicato del tempo.
pietz,

5
Ho provato il tuo approccio di errore totale e volevo solo aggiungere che non funziona bene con costanti squilibri tra positivi e negativi. Immagina un intero set di dati di immagini in cui solo un pixel costituisce la segmentazione della verità fondamentale. Le reti neurali potrebbero apprendere abbastanza rapidamente che una previsione vuota è sempre accurata al 99,9% usando l'errore totale. Andando con IoU o DSC spingiamo la rete a trovare una segmentazione per gli stessi motivi che hai menzionato sopra. Quindi, alla fine, dipende molto dal problema.
pietz,

1
Qualcuno può aiutarmi a conciliare le seguenti due affermazioni ?: 1: "That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."e 2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."
Matt Kleinsmith,

1
Il primo si riferisce a un punteggio di una singola inferenza e il secondo a un punteggio medio su una serie di inferenze (ad esempio una serie di immagini).
willem,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.