Sei sulla strada giusta.
F/ 2≤Io U≤ F
ioo U/ F= 1 / 2 + Io U/ 2
Ma c'è un'affermazione più forte che può essere fatta per l'applicazione tipica della classificazione alla machine learning. Per qualsiasi "verità fondamentale" fissa, le due metriche sono sempre positivamente correlate. Ciò significa che se il classificatore A è migliore di B sotto una metrica, è anche meglio del classificatore B sotto l'altra metrica.
È allettante quindi concludere che le due metriche sono funzionalmente equivalenti, quindi la scelta tra loro è arbitraria, ma non così veloce! Il problema si presenta quando si prende il punteggio medio su una serie di inferenze . Quindi la differenza emerge quando si quantifica quanto il classificatore B sia peggio di A per ogni dato caso.
In generale, la metrica IoU tende a penalizzare quantitativamente le singole istanze di classificazione errata più del punteggio F anche quando possono entrambi concordare sul fatto che questa istanza è negativa. Analogamente a come L2 può penalizzare gli errori maggiori più di L1, la metrica IoU tende ad avere un effetto di "quadratura" sugli errori relativi al punteggio F. Quindi il punteggio F tende a misurare qualcosa di più vicino alla prestazione media, mentre il punteggio IoU misura qualcosa di più vicino alla prestazione del caso peggiore.
Supponiamo ad esempio che la stragrande maggioranza delle inferenze sia moderatamente migliore con il classificatore A rispetto a B, ma alcune di esse sono significativamente peggiori usando il classificatore A. Potrebbe essere il caso quindi che la metrica F favorisca il classificatore A mentre la metrica IoU favorisce classificatore B.
A dire il vero, entrambe queste metriche sono molto più simili di quanto non siano diverse. Ma entrambi soffrono di un altro svantaggio dal punto di vista di prendere le medie di questi punteggi su molte inferenze: entrambi sopravvalutano l'importanza degli insiemi con insiemi positivi di verità di terra praticamente nulla. Nell'esempio comune di segmentazione delle immagini, se un'immagine ha solo un singolo pixel di qualche classe rilevabile e il classificatore rileva quel pixel e un altro pixel, il suo punteggio F è un minimo di 2/3 e l'IoU è anche peggio di 1 / 2. Errori fondamentali come questi possono dominare seriamente il punteggio medio acquisito su una serie di immagini. In breve, pondera ogni errore di pixel inversamente proporzionalmente alla dimensione dell'insieme selezionato / rilevante anziché trattarli allo stesso modo.
c0c1