Perché la somma di precisione e richiamo non è una misura degna?


12

Qual è il modo migliore per spiegare perché non è una buona misura, diciamo, rispetto alla F1?Precisione+Richiamare


Cosa significherebbe? Come lo interpreteresti? Cosa ti direbbe effettivamente?
Matthew Drury,

1
Dovresti cambiare il titolo sostituendo "Precisione + Richiama" con "la somma di Precisione e Richiamo" per rendere più chiaro ciò che desideri.
g3o2,

@ g3o2 stiamo parlando di grammatica qui o mi sto perdendo qualcosa di più grande?
matt

Non proprio, notando solo che può anche essere letto Precision & Recall, in particolare quando si legge solo il titolo.
g3o2,

Risposte:


18

Non è che sia di per sé una brutta misura, è solo che, da solo, il numero risultante non rappresenta nulla di significativo. Sei sulla buona strada, però ... quello che stiamo cercando è una media combinata delle due misure di prestazione poiché non vogliamo scegliere tra di loro.Precisione+Richiamare

Ricordiamo che precisione e richiamo sono definiti come:

Richiamo positivo previsto =Vero positivo

Precisione=Vero positivoPositivo previsto
Richiamare=Vero positivoPositivo reale

Poiché entrambi hanno denominatori diversi, sommandoli insieme si ottiene qualcosa del genere: ... che non è particolarmente utile.

Vero positivo(Positivo previsto+Positivo reale)Positivo previsto×Positivo reale

Torniamo ad aggiungerli insieme e facciamo una modifica: moltiplicali per modo che rimangano nella scala corretta,[0-1]. Questo sta prendendo la media familiare di loro.12[0-1]

12×(Vero positivoPositivo previsto+Vero positivoPositivo reale)

Quindi, abbiamo due quantità, che hanno lo stesso numeratore, ma denominatori diversi e vorremmo prenderne la media. Cosa facciamo? Bene, potremmo capovolgerli, prendere il loro contrario. Quindi potresti aggiungerli insieme. Quindi sono "lato destro", riprendi di nuovo l'inverso.

Questo processo di inversione e quindi di inversione di nuovo trasforma una media "normale" in una media armonica. Accade semplicemente che la media armonica di precisione e richiamo sia la statistica F1. La media armonica viene generalmente utilizzata al posto della media aritmetica standard quando si ha a che fare con i tassi, come stiamo facendo qui.

Alla fine, la statistica F1 è solo la media della precisione e del richiamo, e la usi perché non vuoi scegliere l'una o l'altra per valutare le prestazioni del modello.


2
Mille grazie per lo sviluppo gentile della media armonica dalla media algebrica! ma ciò che probabilmente non si adatta molto saldamente a me, è la parte in cui dici "che non è particolarmente utile". In tal senso, ho commentato di seguito le altre due risposte ora. Nel caso in cui avresti fatto un ulteriore passo avanti. Ad esempio, immagino di voler scegliere il miglior classificatore tra un gruppo di classificatori testati sullo stesso set di dati.
matt

@matt, l'utilizzo di qualsiasi misura combinata porterà la scelta del modello a un certo punto ma non oltre. Due modelli con lo stesso valore F1 possono mostrare valori di richiamo e precisione completamente opposti. Pertanto, poiché la F1 è la stessa, dovrai scegliere tra Richiama e Precisione.
g3o2,

4

La risposta breve è: non ti aspetteresti che la somma di due percentuali che hanno due denominatori diversi abbiano un significato particolare. Quindi, l'approccio per prendere una misura media come F1, F2 o F0.5. Quest'ultimo conserva almeno la proprietà di una percentuale. Che dire del loro significato però?

La bellezza di Precisione e Richiamo come misure separate è la loro facilità di interpretazione e il fatto che possono essere facilmente confrontati con gli obiettivi di business del modello. La precisione misura la percentuale dei true positivescasi classificati come positivedal modello. Richiama misura la percentuale di true positivestrovati dal modello tra tutti i truecasi. Per molti problemi, dovrai scegliere tra l'ottimizzazione di Precisione o Richiamo.

Qualsiasi misura media perde l'interpretazione di cui sopra e si riduce alla misura che preferisci di più. F1 significa che non sai se preferisci Richiama o Precisione, oppure attribuisci lo stesso peso a ciascuno di essi. Se consideri Richiamo più importante di Precisione, dovresti anche assegnargli un peso maggiore nel calcolo medio (es. F2) e viceversa (es. F0.5).


3

L'aggiunta dei due è una misura negativa. Otterrai un punteggio di almeno 1 se contrassegni tutto come positivo, poiché questo è un richiamo del 100% per definizione. E avrai anche un piccolo urto di precisione. La media geometrica usata in F1 enfatizza il legame debole, poiché è moltiplicativo; devi almeno fare bene con precisione e ricordare per ottenere un discreto punteggio in F1.


In realtà, è questa enfasi esatta del legame debole, che ho trovato superfluo quando Precisione e Richiamo sono entrambi sensibili piuttosto che spigolosi. Quando entrambi non sono spigolosi, non sono sicuro di vedere il valore aggiunto di una metrica che enfatizza la somiglianza tra loro o mette in modo diverso penalizzante dalla dimensione della loro differenza. Questa esatta proprietà ha in parte motivato la mia domanda originale qui.
opaco

Mi sembra un lavoro extra. Se apprezzi un punto percentuale di richiamo tanto quanto uno di precisione, allora immagino che la tua misura sia quella da usare. Ma non riesco a immaginarti. Il richiamo probabilmente dominerà, anche se riduci gli intervalli. Potresti ridimensionare il ricordo per essere mele a mele con precisione, ma questo è ancora più lavoro e rende l'interpretazione meno chiara.
Ben Ogorek,

1
Non sono sicuro del motivo per cui supponiamo che il richiamo debba dominare (?) Ma il ridimensionamento del ricordo per essere da mele a mele con precisione potrebbe essere una discussione correlata interessante qui o altrove - un puntatore nella giusta direzione potrebbe essere bello avere :) e altrimenti grazie ancora
matt

3

Il punteggio F1 è particolarmente utile in caso di probabilità gravemente asimmetriche.

Considera il seguente esempio: testiamo una malattia rara ma pericolosa. Supponiamo che in una città di 1.000.000 di persone solo 100 siano infette.

Il test A rileva tutti questi 100 positivi. Tuttavia, ha anche un tasso di falsi positivi del 50%: mostra erroneamente che altre 500.000 persone sono ammalate.

Nel frattempo, il test B perde il 10% dell'infezione, ma fornisce solo 1.000 falsi positivi (0,1% di falsi positivi)

Calcoliamo i punteggi. Per il test A, la precisione sarà effettivamente 0; il richiamo sarà esattamente 1. Per la prova B, la precisione sarà ancora piuttosto piccola, circa 0,01. Il richiamo sarà uguale a 0.9.

Se sommiamo o prendiamo ingenuamente la media aritmetica di precisione e richiamo, ciò fornirà 1 (0,5) per il test A e 0,91 (0,455) per il test B. Quindi, il test A sembrerebbe leggermente migliore.

Tuttavia, se guardiamo da una prospettiva pratica, il test A è inutile: se una persona è positiva, la sua possibilità di ammalarsi veramente è 1 su 50.000! Il test B ha un significato più pratico: puoi portare 1.100 persone in ospedale e osservarle attentamente. Ciò si riflette accuratamente nel punteggio F1: per il test A sarà vicino a 0,0002, per il test B: (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, che è ancora piuttosto scarso, ma circa 50 volte migliore.

Questa corrispondenza tra valore del punteggio e significato pratico è ciò che rende prezioso il punteggio F1.


Grazie. Forse non mi sono sufficientemente immerso nel caso, ma questa spiegazione non dipende dal vantaggio pragmatico di assegnare risorse ai "positivi" in un dominio della vita reale in cui l'obiettivo è individuare un risultato (positivo)? questo non è sempre il caso, che l'obiettivo è rilevare un risultato, vero? a volte vuoi solo sapere se è una mela o una coppia ed entrambi i tipi di errore hanno lo stesso costo pratico nel mondo reale.
opaco

Soprattutto, ciò che non riesco a vedere è come questa proprietà dell'essere "migliore" si ridimensiona ai casi in cui la differenza (assoluta) tra precisione e richiamo è meno patologica. Forse l'intuizione è intrinsecamente lì, ma io non sono ancora lì ...
matt,

1

In generale, massimizzare la media geometrica sottolinea che i valori sono simili. Ad esempio, prendi due modelli: il primo ha (precisione, richiamo) = (0,8, 0,8) e il secondo ha (precisione, richiamo) = (0,6, 1,0). Usando la media algebrica, entrambi i modelli sarebbero equivalenti. Usando la media geometrica, il primo modello è migliore perché non scambia precisione per il richiamo.


1
Molte grazie. Tuttavia, in termini pratici, non riesco a vedere alcuna preferenza universalmente applicabile tra ad esempio (0,8, 0,8) e (0,7, 0,9). Forse hai accennato a qualcosa di più profondo nel "negoziare precisione per il richiamo" - che non sto raccogliendo (ancora). Per me algebricamente facendo la media di due tipi di errore, ne fornisce semplicemente la media più semplice, senza alcun pregiudizio per la somiglianza. Ad esempio, potrei usare la semplice somma di Precisione e Richiamo per capire quale dei due classificatori mi dà meno errori.
matt

Possiamo portarlo all'estremo. Diciamo che hai un sistema che ha un (precisione, richiamo) = (0.6, 0.6). Ciò significa che quando dice "sì" è giusto il 60% delle volte e rileva correttamente il 60% degli eventi "sì". Ora confrontiamo questo con un sistema che ha (0.3, 1). Questo ha una media algebrica migliore, ma cosa sta facendo? Sta catturando tutti gli eventi "sì", ma sta anche dicendo "sì" in modo errato molto . Quello è buono? È male? Dipende dal motivo per cui stai costruendo il sistema. Quale azione intraprenderai quando visualizzerai una previsione "sì"? Qual è la conseguenza della mancanza di un evento "sì"?
roundsquare

1
Nessuna di queste misure è una corretta valutazione del punteggio di precisione
Frank Harrell,

@roundsquare molte grazie, ma per i casi non patologici - in cui entrambi non sono vicini a 0 e 1 - probabilmente ho bisogno di aiuto per vedere il vantaggio di enfatizzare la somiglianza tra i due, nella misura finale!
matt

@FrankHarrell grazie per aver indicato "l'elefante nella stanza"
matt
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.