Nell'elaborazione delle immagini mediche la maggior parte delle opere pubblicate cerca di ridurre il tasso di falsi positivi (FPR) mentre in realtà i falsi negativi sono più pericolosi dei falsi positivi. Qual è la logica alla base?
Nell'elaborazione delle immagini mediche la maggior parte delle opere pubblicate cerca di ridurre il tasso di falsi positivi (FPR) mentre in realtà i falsi negativi sono più pericolosi dei falsi positivi. Qual è la logica alla base?
Risposte:
TL; DR: le malattie sono rare, quindi il numero assoluto di falsi positivi è molto più di quello dei falsi negativi.
Supponiamo che il nostro sistema abbia lo stesso tasso di falsi positivi e falsi negativi dell'1% (abbastanza buono!) E che stiamo rilevando la presenza di nuovi tumori quest'anno: 439,2 / 100.000 persone, o 0,5% della popolazione. [ fonte ]
Quindi possiamo vedere che abbiamo un problema: per tutti coloro che hanno il cancro, due persone che non hanno avuto il cancro finiscono con la chirurgia invasiva, la chemioterapia o la radioterapia.
Per ogni persona che non riesce a rilevare un tumore attuale, duecento persone ricevono trattamenti attivamente dannosi di cui non hanno bisogno e che non possono davvero permettersi.
Conosci la storia del ragazzo che piangeva lupo, vero?
È la stessa idea Dopo che un certo classificatore dà falsi allarmi (piange lupo) così tante volte, il personale medico lo spegne o lo ignora.
"Oh, questo nuovo! NOPE!"
Almeno con il gruppo di bioingegneria con cui ho lavorato, l'enfasi è sulla riduzione dell'FPR in particolare perché l'obiettivo è creare uno strumento che avvisi i medici di potenziali patologie e ci hanno detto che ignoreranno un prodotto che piange il lupo troppo.
Per un prodotto che aiuta i medici, dobbiamo fare appello alla loro psicologia, nonostante l'argomento legittimo che perdere il lupo nella fattoria sia peggio del piangere lupo.
Modifica : la riduzione dei falsi positivi ha anche un argomento legittimo. Se il tuo computer continua a piangere lupo mentre ottiene occasionalmente il vero positivo (e cattura la maggior parte dei veri positivi), sta effettivamente dicendo che qualcuno potrebbe essere malato. Sono in ospedale. Il medico sa che il paziente potrebbe essere malato.
Riepilogo: la domanda probabilmente * non è se un falso negativo sia peggiore di un falso positivo, probabilmente * è più simile al fatto che 500 falsi positivi siano accettabili per arrivare a un falso negativo.
* dipende dall'applicazione
Vorrei espandere un po 'la risposta di @ Dragon:
Lo screening significa che stiamo cercando malattie tra una popolazione apparentemente sana. Come ha spiegato @Dragon, per questi abbiamo bisogno di un FPR (o un'alta sensibilità) estremamente basso, altrimenti finiremo con molti più falsi positivi che veri positivi. Vale a dire, il valore predittivo positivo (# veramente malato tra tutti i positivi diagnosticati) sarebbe inaccettabilmente basso.
La sensibilità (TPR) e la specificità (TNR) sono facili da misurare per un sistema diagnostico: prendere un numero di casi veramente (non) malati e misurare la frazione di quelli correttamente rilevati.
OTOH, sia dal punto di vista dei medici che dei pazienti, i valori predittivi sono più pertinenti . Sono l '"inverso" della sensibilità e della specificità e ti dicono tra tutte le previsioni positive (negative), quale frazione è corretta. In altre parole, dopo il test ha detto "malattia" qual è la probabilità che il paziente abbia effettivamente la malattia.
Come ti ha mostrato @Dragon, l'incidenza (o prevalenza, a seconda del test di cui stiamo parlando) svolge qui un ruolo cruciale. L'incidenza è bassa in tutti i tipi di applicazioni di screening / diagnosi precoce del cancro.
Per illustrare questo, lo screening del carcinoma ovarico nelle donne in post-menopausa ha una prevalenza dello 0,04% nella popolazione generale e dello 0,5% nelle donne ad alto rischio con anamnesi familiare e / o mutazioni note dei geni soppressori del tumore BRCA1 e 2 [Buchen, L. Cancro: manca il segno. Nature, 2011, 471, 428-432]
Quindi la domanda non è in genere se un falso negativo sia peggiore di un falso positivo, ma anche la specificità del 99% (1% FPR) e la sensibilità del 95% (numeri presi dal documento sopra linkato) significa quindi circa 500 falsi positivi per ogni falso negativo .
Come nota a margine, tieni anche presente che la diagnosi precoce del cancro in sé non è una cura magica per il cancro. Ad esempio per il cancro al seno di screening mammografico, solo 3-13% dei veri pazienti positivi effettivamente beneficiare la proiezione .
Quindi dobbiamo anche tenere d'occhio il numero di falsi positivi per ciascun paziente beneficiario . Ad esempio per la mammografia, insieme a questi numeri , una stima approssimativa che abbiamo da qualche parte nella gamma di 400 - 1800 falsi positivi per beneficio vero positivo (gruppo 39 - 49 anni).
Con centinaia di falsi positivi per falso negativo (e forse anche centinaia o addirittura migliaia di falsi positivi per paziente che beneficiano dello screening) la situazione non è chiara come "un cancro mancato è peggiore di una diagnosi di cancro falso positivo": falsi positivi hanno un impatto, che va da psicologico e psicosomatico (preoccuparsi di avere il cancro in sé non è salutare) a rischi fisici di diagnosi di follow-up come la biopsia (che è un piccolo intervento chirurgico, e come tale viene fornito con il suo rischi).
Anche se l'impatto di un falso positivo è piccolo, i rischi corrispondenti possono sommarsi sostanzialmente se si devono considerare centinaia di falsi positivi.
Lettura suggerita: Gerd Gigerenzer: Risk Savvy: How to Good Good Decision (2014).
Tuttavia, ciò che PPV e NPV sono necessari per rendere utile un test diagnostico dipende fortemente dall'applicazione.
Come spiegato, nello screening per la diagnosi precoce del cancro, l'attenzione si concentra di solito sul PPV, vale a dire assicurarsi che non si causino troppi danni da falsi negativi: trovare una frazione considerevole (anche se non tutti) dei pazienti con cancro precoce è già un miglioramento rispetto lo status quo senza screening.
OTOH, il test HIV nelle donazioni di sangue si concentra innanzitutto sul VAN (cioè assicurarsi che il sangue sia privo di HIV). Tuttavia, in una seconda (e terza) fase, i falsi positivi vengono quindi ridotti applicando ulteriori test prima di preoccupare le persone con risultati (falsi) positivi del test HIV.
Infine, ci sono anche applicazioni di test medici in cui le incidenze o le prevalenze non sono così estreme come lo sono di solito nello screening di popolazioni non particolarmente ad alto rischio, ad esempio alcune diagnosi differenziali.
Da una prospettiva personale, piuttosto che un'esperienza di data science, un falso positivo ha un impatto maggiore sulla qualità della vita del paziente rispetto a un falso negativo (almeno nella maggior parte delle applicazioni dell'elaborazione di immagini mediche. Non stiamo parlando dei risultati di laboratorio qui) .
Diamo un'occhiata a un esempio concreto: screening del tumore .
Un falso negativo significa che un tumore in fase iniziale ha più tempo per crescere e svilupparsi in un cancro maligno. Complessivamente questo processo richiede molto tempo e ogni screening successivo ha maggiori possibilità di rilevarlo, ma realisticamente soffre la salute a lungo termine di un paziente.
Inoltre, c'è sempre un essere umano coinvolto nella diagnosi. L'elaborazione delle immagini mediche nella sua fase tecnologica attuale è pensata per essere un aiuto per il personale medico, non un sostituto . Spesso ha lo scopo di evidenziare lesioni o cambiamenti nei tessuti così sottili che un essere umano potrebbe trascurarli. Non c'è alcuna possibilità che un medico trascuri un tumore in stadio avanzato. Non hanno bisogno di elaborazione delle immagini per questo.
In termini di procedure mediche, se un tumore non diventa inutilizzabile prima del prossimo screening, non c'è grande differenza tra la rimozione di un tumore in fase iniziale o uno che ha avuto un po 'più di tempo per crescere. La quantità di tessuto rimosso è maggiore, ma il tipo di operazione è spesso lo stesso. (Ciò presuppone che il paziente esegua regolarmente controlli di salute.)
Un falso positivo ha molte implicazioni che non sono tutte direttamente correlate a un disturbo:
Questa valutazione rischio-beneficio mostra che un falso negativo include meno rischi per un paziente rispetto a un falso positivo. Pertanto, la priorità di riduzione dei falsi positivi è generalmente più elevata.
Il tempo del medico è prezioso
Nell'ambito della medicina, i medici hanno spesso una vasta gamma di malattie per cercare di rilevare e diagnosticare, e questo è un processo che richiede tempo. Uno strumento che presenta un falso positivo (anche se a bassa velocità) è meno utile perché non è possibile fidarsi di quella diagnosi, il che significa che ogni volta che effettua tale diagnosi, deve essere controllato. Pensalo come il WebMD del software: tutto è un segno di cancro!
Uno strumento che presenta falsi negativi, ma presenta sempre veri positivi, è molto più utile, in quanto un medico non ha bisogno di perdere tempo a controllare due volte o a indovinare la diagnosi. Se segnala qualcuno come malato con una diagnosi specifica, lavoro svolto. In caso contrario, le persone che non sono evidenziate come malate riceveranno comunque ulteriori test.
È meglio avere uno strumento in grado di identificare con precisione anche un singolo tratto di una malattia, piuttosto che uno strumento che può confondere più tratti.
False Positive Rate (FPR) noto anche come falso tasso di allarme (FAR); Una grande percentuale di falsi positivi può produrre scarse prestazioni del sistema di rilevamento di immagini mediche. Un falso positivo è il punto in cui si riceve un risultato positivo per un test, quando si dovrebbe aver ricevuto un risultato negativo. Ad esempio, un test di gravidanza è positivo, quando in realtà la persona non è incinta.
Con ogni probabilità, tutti su questo thread sanno già che questo è un problema alla base dell'analisi bayesiana. Solo a beneficio dei futuri pellegrini che potrebbero pensare ai falsi positivi come in qualche modo solo un problema di radiologia, spero che questo commento fornisca una prospettiva un po 'più generale.