Statistics.com ha pubblicato la risposta sbagliata?


28

Statistics.com ha pubblicato un problema della settimana: il tasso di frode assicurativa residenziale è del 10% (uno su dieci è fraudolento). Un consulente ha proposto un sistema di apprendimento automatico per esaminare i reclami e classificarli come frodi o no. Il sistema è efficace al 90% nel rilevare i reclami fraudolenti, ma solo l'80% nel classificare correttamente i reclami non fraudolenti (etichetta erroneamente uno su cinque come "frode"). Se il sistema classifica un reclamo come fraudolento, qual è la probabilità che sia realmente fraudolento?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

Io e il mio pari abbiamo trovato la stessa risposta in modo indipendente e non corrisponde alla soluzione pubblicata.

La nostra soluzione:

(0,9 * 0,1) / ((. 9 * .1) + (. 2 * .9)) = 1/3

La loro soluzione:

Questo è un problema con probabilità condizionata. (È anche un problema bayesiano, ma l'applicazione della formula nella regola di Bayes aiuta solo a oscurare quello che sta succedendo.) Prendi in considerazione 100 affermazioni. 10 saranno fraudolenti e il sistema ne etichetterà correttamente 9 come "frode". 90 reclami andranno bene, ma il sistema classificherà erroneamente 72 (80%) come "frode". Quindi sono state etichettate in totale 81 affermazioni come fraudolento, ma solo 9 di loro, l'11%, sono in realtà fraudolenti.

Chi aveva ragione


4
Sembra che la soluzione corretti sul loro sito web per essere in linea con quello che si è calcolato
No

2
@nope, ha corretto in silenzio la risposta. subdolo
Aksakal il

Curiosità: nel processo decisionale comportamentale, questo problema viene spesso definito "problema mammografico", poiché la sua presentazione abituale riguarda la possibilità che un paziente con il cancro riceva una mammografia positiva.
Kodiologo il

"La buona notizia è che il nostro sistema classifica il 90% delle frodi come frodi. La cattiva notizia è che classifica l'80% delle frodi come frodi". Si noti che l'11% che calcolano è solo leggermente superiore al tasso base del 10%. Un modello di apprendimento automatico in cui il tasso di frode nei casi segnalati è solo del 10% in più rispetto al tasso di base è piuttosto terribile.
Accumulo

Risposte:


41

Credo che tu e il tuo collega abbiate ragione. Statistics.com ha la linea di pensiero corretta, ma commette un semplice errore. Su 90 affermazioni "OK", prevediamo che il 20% di esse sia classificato erroneamente come frode, non l'80%. Il 20% di 90 è 18, portando a 9 reclami correttamente identificati e 18 reclami errati, con un rapporto di 1/3, esattamente ciò che la regola di Bayes produce.


11

Hai ragione. La soluzione pubblicata dal sito Web si basa su una lettura errata del problema in quanto l'80% delle richieste non fraudolente sono classificate come fraudolente anziché il 20% indicato.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.