Qual è il modo migliore per spiegare perché non è una buona misura, diciamo, rispetto alla F1?
Qual è il modo migliore per spiegare perché non è una buona misura, diciamo, rispetto alla F1?
Risposte:
Non è che sia di per sé una brutta misura, è solo che, da solo, il numero risultante non rappresenta nulla di significativo. Sei sulla buona strada, però ... quello che stiamo cercando è una media combinata delle due misure di prestazione poiché non vogliamo scegliere tra di loro.
Ricordiamo che precisione e richiamo sono definiti come:
Richiamo positivo previsto =Vero positivo
Poiché entrambi hanno denominatori diversi, sommandoli insieme si ottiene qualcosa del genere: ... che non è particolarmente utile.
Torniamo ad aggiungerli insieme e facciamo una modifica: moltiplicali per modo che rimangano nella scala corretta,[0-1]. Questo sta prendendo la media familiare di loro.
Quindi, abbiamo due quantità, che hanno lo stesso numeratore, ma denominatori diversi e vorremmo prenderne la media. Cosa facciamo? Bene, potremmo capovolgerli, prendere il loro contrario. Quindi potresti aggiungerli insieme. Quindi sono "lato destro", riprendi di nuovo l'inverso.
Questo processo di inversione e quindi di inversione di nuovo trasforma una media "normale" in una media armonica. Accade semplicemente che la media armonica di precisione e richiamo sia la statistica F1. La media armonica viene generalmente utilizzata al posto della media aritmetica standard quando si ha a che fare con i tassi, come stiamo facendo qui.
Alla fine, la statistica F1 è solo la media della precisione e del richiamo, e la usi perché non vuoi scegliere l'una o l'altra per valutare le prestazioni del modello.
La risposta breve è: non ti aspetteresti che la somma di due percentuali che hanno due denominatori diversi abbiano un significato particolare. Quindi, l'approccio per prendere una misura media come F1, F2 o F0.5. Quest'ultimo conserva almeno la proprietà di una percentuale. Che dire del loro significato però?
La bellezza di Precisione e Richiamo come misure separate è la loro facilità di interpretazione e il fatto che possono essere facilmente confrontati con gli obiettivi di business del modello. La precisione misura la percentuale dei true positivescasi classificati come positivedal modello. Richiama misura la percentuale di true positivestrovati dal modello tra tutti i truecasi. Per molti problemi, dovrai scegliere tra l'ottimizzazione di Precisione o Richiamo.
Qualsiasi misura media perde l'interpretazione di cui sopra e si riduce alla misura che preferisci di più. F1 significa che non sai se preferisci Richiama o Precisione, oppure attribuisci lo stesso peso a ciascuno di essi. Se consideri Richiamo più importante di Precisione, dovresti anche assegnargli un peso maggiore nel calcolo medio (es. F2) e viceversa (es. F0.5).
L'aggiunta dei due è una misura negativa. Otterrai un punteggio di almeno 1 se contrassegni tutto come positivo, poiché questo è un richiamo del 100% per definizione. E avrai anche un piccolo urto di precisione. La media geometrica usata in F1 enfatizza il legame debole, poiché è moltiplicativo; devi almeno fare bene con precisione e ricordare per ottenere un discreto punteggio in F1.
Il punteggio F1 è particolarmente utile in caso di probabilità gravemente asimmetriche.
Considera il seguente esempio: testiamo una malattia rara ma pericolosa. Supponiamo che in una città di 1.000.000 di persone solo 100 siano infette.
Il test A rileva tutti questi 100 positivi. Tuttavia, ha anche un tasso di falsi positivi del 50%: mostra erroneamente che altre 500.000 persone sono ammalate.
Nel frattempo, il test B perde il 10% dell'infezione, ma fornisce solo 1.000 falsi positivi (0,1% di falsi positivi)
Calcoliamo i punteggi. Per il test A, la precisione sarà effettivamente 0; il richiamo sarà esattamente 1. Per la prova B, la precisione sarà ancora piuttosto piccola, circa 0,01. Il richiamo sarà uguale a 0.9.
Se sommiamo o prendiamo ingenuamente la media aritmetica di precisione e richiamo, ciò fornirà 1 (0,5) per il test A e 0,91 (0,455) per il test B. Quindi, il test A sembrerebbe leggermente migliore.
Tuttavia, se guardiamo da una prospettiva pratica, il test A è inutile: se una persona è positiva, la sua possibilità di ammalarsi veramente è 1 su 50.000! Il test B ha un significato più pratico: puoi portare 1.100 persone in ospedale e osservarle attentamente. Ciò si riflette accuratamente nel punteggio F1: per il test A sarà vicino a 0,0002, per il test B: (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, che è ancora piuttosto scarso, ma circa 50 volte migliore.
Questa corrispondenza tra valore del punteggio e significato pratico è ciò che rende prezioso il punteggio F1.
In generale, massimizzare la media geometrica sottolinea che i valori sono simili. Ad esempio, prendi due modelli: il primo ha (precisione, richiamo) = (0,8, 0,8) e il secondo ha (precisione, richiamo) = (0,6, 1,0). Usando la media algebrica, entrambi i modelli sarebbero equivalenti. Usando la media geometrica, il primo modello è migliore perché non scambia precisione per il richiamo.