Interpretazione del teorema di Bayes applicata a risultati mammografici positivi


11

Sto cercando di avvolgere la mia testa attorno al risultato del teorema di Bayes applicato al classico esempio di mammografia, con la svolta della mammografia perfetta.

Questo è,

Incidenza del cancro:.01

Probabilità di una mammografia positiva, dato che il paziente ha il cancro:1

Probabilità di una mammografia positiva, dato che il paziente non ha il cancro:.01

Di Bayes:

P (cancer | + +) =1.01(1.01)+(.091.99)

=.5025

Quindi, se una persona a caso della popolazione prende la mammografia e ottiene un risultato positivo, c'è una probabilità del 50% di avere il cancro? Non riesco a capire intuitivamente come la minima probabilità dell'1% di un falso positivo nell'1% della popolazione possa innescare un risultato del 50%. Logicamente, penso che una mammografia positiva perfettamente vera con un piccolo tasso di falsi positivi sarebbe molto più accurata.


2
Il tasso di falsi positivi non è dell'1% ma piuttosto del 99% della popolazione. Ecco perché ottieni una probabilità che potrebbe sembrare bassa, a causa dell'altissima probabilità che qualcuno sia in buona salute. Inoltre, tieni presente che si tratta di un solo test, cosa succede se esegui il test più di una volta? Quindi l'accuratezza del test inizia a importare di più.
Dsaxton,

Se si tratta di una mammografia perfetta, la percentuale di falsi positivi sarebbe zero, quindi p (C | M) = 1 * 0,01 / (1 * 0,01 + 0 * 0,99) = 1,0 All'avvicinarsi della percentuale di falsi positivi della mammografia perfezione (0) quindi il secondo termine in basso si avvicina a zero. Il "falso" tasso di falsi positivi si combina con il tasso di base altrettanto piccolo per rendere il risultato controintuitivo.
Dave X,

In seguito la mia esperienza suggerisce che la logica, di tipo deduttivo formale, è una cosa meravigliosa, ma genera intuizioni estremamente negative sull'inferenza probabilistica. Gli strumenti qui bmj.com/content/343/bmj.d6386 possono aiutare il tuo intuito.
conjugateprior,

Nella mia comprensione, la domanda è chiedere intuizione su come la probabilità condizionale può essere così bassa date le ipotesi; non sulle statistiche della mammografia nella vita reale (di cui sembrano avere le risposte).
Juho Kokkala,

Però c'è un errore di battitura nel denominatore (il secondo termine dovrebbe essere (.01 * 0.99)? Il risultato è corretto però. Non proprio un'intuizione ma semplificando hai P (C | +) = P (C) / (P (C) + (P (+ |! C) P (! C)) e P (C) è molto basso. Quindi P (C | +) è estremamente sensibile a P (+ |! C), cioè avresti bisogno di P ( + |! C) << P (C) per far avvicinare P (C | +) 1
David Waterworth

Risposte:


11

Risponderò a questa domanda sia dal punto di vista medico che statistico. Ha ricevuto molta attenzione dalla stampa laica, in particolare dopo il best-seller The Signal and the Noise di Nate Silver, oltre a numerosi articoli in pubblicazioni come il New York Times che spiegano il concetto. Quindi sono molto contento che @ user2666425 abbia aperto questo argomento sul CV.

Prima di tutto, vorrei chiarire che non è accurato. Posso dirti che questa cifra sarebbe un sogno diventato realtà. Sfortunatamente ci sono molte mammografie false negative , in particolare nelle donne con tessuto mammario denso. La cifra stimata può essere del o superiore , a seconda che si raggruppino tutti i diversi tipi di tumore al seno in uno (invasivo v DCIS) e altri fattori. Questo è il motivo per cui vengono applicate anche altre modalità basate sulla tecnologia ecografica o RM. Una differenza tra e è fondamentale in un test di screening.20 % 0,8 1p(+|C)=120%0.81

Il teorema di Bayes ci dice che , e recentemente ha ricevuto molta attenzione in quanto si riferisce alla mammografia nelle donne più giovani ea basso rischio . Mi rendo conto che non è esattamente quello che mi stai chiedendo, che affronterò negli ultimi paragrafi, ma è l'argomento più dibattuto. Ecco un assaggio dei problemi:p(C|+)=p(+|C)p(+)p(C)

  1. Il precedente (o la probabilità di avere il cancro in base alla prevalenza) nei pazienti più giovani , ad esempio dai 40 ai 50 anni, è piuttosto piccolo. Secondo l' NCI , potrebbe arrotondarlo a (vedi tabella sotto). Questa probabilità pre-test relativamente bassa in sé riduce la probabilità condizionale post-test di avere il cancro dato che la mammografia era positiva, indipendentemente dalla probabilità o dai dati raccolti.1.5%

  2. La probabilità di un falso positivo diventa un problema molto significativo in una procedura di screening che verrà applicata a migliaia e migliaia di donne in buona salute a priori. Quindi, sebbene il tasso di falsi positivi del (che è molto più alto se ti concentri sul rischio cumulativo ) potrebbe non sembrare così male, in realtà è un problema di colossali costi psicologici ed economici, in particolare dato il basso pre test di probabilità in pazienti più giovani e a basso rischio. La tua cifra è ampiamente fuori dal comune - la realtà è che le "paure" sono incredibilmente comuni a causa di molti fattori, tra cui le preoccupazioni medico-legali.1 %710%1%

Quindi, ricalcolo e, cosa molto importante, per le donne più giovani senza fattori di rischio :

p(C|+)=p(+|C)p(+)p(C)=

=p(+|C)p(+|C)p(C)+p(+|C¯)p(C¯)p(C)=0.80.80.015+0.070.9850.015=0.148 .

La probabilità di avere un cancro quando una mammografia di screening è stata letta come positiva può essere inferiore al nelle donne giovani e a basso rischio. A parte questo, le letture mammografiche arrivano con una stima indiretta della fiducia nella diagnosi del radiologo (si chiama BI-RADS), e questa analisi bayesiana cambierebbe radicalmente mentre passiamo da un BI-RADS 3 a un BI-RADS 5 - tutti questi test "positivi" nel senso più ampio.15%

Questa cifra può logicamente essere cambiata a seconda delle stime che consideri nel tuo calcolo, ma la verità è che le raccomandazioni per l'età iniziale per entrare in un programma di mammografia di screening sono state recentemente aumentate da a4045 .

Nelle donne anziane la prevalenza (e quindi la probabilità pre-test) aumenta linearmente con l'età. Secondo l'attuale rapporto, il rischio che a una donna venga diagnosticato un tumore al seno nei prossimi 10 anni , a partire dalle seguenti età, è il seguente:

Age 30 . . . . . . 0.44 percent (or 1 in 227)
Age 40 . . . . . . 1.47 percent (or 1 in 68)
Age 50 . . . . . . 2.38 percent (or 1 in 42)
Age 60 . . . . . . 3.56 percent (or 1 in 28)
Age 70 . . . . . . 3.82 percent (or 1 in 26)

Ciò comporta un rischio cumulativo per tutta la vita di circa il :10%

Il calcolo nelle donne anziane con una prevalenza del sarebbe:4%

p(C|+)=0.80.80.04+0.070.960.04=0.3232% inferiore a quello calcolato.

Non posso enfatizzare eccessivamente quante "paure" ci sono anche nelle popolazioni più anziane. Come procedura di screening, una mammografia è semplicemente il primo passo, quindi ha senso che la mammografia positiva sia sostanzialmente interpretata in quanto esiste la possibilità che il paziente abbia il cancro al seno, garantendo ulteriore elaborazione con ultrasuoni, test mammografici aggiuntivi (diagnostici), mammografie di follow-up, risonanza magnetica o biopsia. Se la fosse molto alta non avremmo a che fare con un test di screening che sarebbe un test diagnostico , come una biopsia.p(C|+)

Risposta specifica alla tua domanda:

Sono le "paure", la del e non l' come nel PO, in combinazione con una prevalenza relativamente bassa della malattia (bassa probabilità pre-test o alta ) specialmente nelle donne più giovani, che spiega questa minore probabilità post-test tra le età. p(+|C¯)710%1%p(C¯)Si noti che questa "percentuale di falsi allarmi" viene moltiplicata per la proporzione molto più ampia di casi senza cancro (rispetto ai pazienti con cancro) nel denominatore, non per la "minima probabilità dell'1% di un falso positivo nell'1% della popolazione" citare. Credo che questa sia la risposta alla tua domanda. Per sottolineare, sebbene ciò sia inaccettabile in un test diagnostico, vale comunque la pena in una procedura di screening.

Problema di intuizione: @Juho Kokkala ha sollevato il problema che l'OP stava chiedendo dell'intuizione . Pensavo fosse implicito nei calcoli e nei paragrafi finali, ma abbastanza giusto ... Ecco come lo spiegherei ad un amico ... Facciamo finta di andare a caccia di frammenti di meteoriti con un metal detector a Winslow, in Arizona. Giusto qui:

Immagine da meteorcrater.com

... e il metal detector si spegne. Bene, se hai detto che è probabile che da una moneta sia caduto un turista, probabilmente avresti ragione. Ma hai capito bene: se il posto non fosse stato così accuratamente schermato, sarebbe molto più probabile che un segnale acustico proveniente dal rilevatore in un posto come questo provenisse da un frammento di meteorite che se fossimo nelle strade di New York.

Quello che stiamo facendo con la mammografia sta andando a una popolazione sana, alla ricerca di una malattia silenziosa che se non catturata in anticipo può essere letale. Fortunatamente, la prevalenza (anche se molto elevata rispetto ad altri tumori meno curabili) è abbastanza bassa che la probabilità di incontrare casualmente un cancro è bassa, anche se i risultati sono "positivi" , e specialmente nelle giovani donne.

D'altra parte, se non ci fossero falsi positivi, ovvero ( ,p(C¯|+)=0

100%p(+|C)p(+|C)p(C)+p(+|C¯)p(C¯)p(C)=p(+|C)p(+|C)p(C)p(C)=1 , tanto quanto la probabilità di aver colpito un frammento di meteorite se il nostro metal detector si fosse spento sarebbe indipendente al dall'area che stavamo esplorando se invece di un normale metal detector stessimo usando uno strumento perfettamente accurato per rilevare gli amminoacidi nello spazio esterno nella meteora frammento (esempio inventato). Sarebbe ancora più probabile trovare un frammento nel deserto dell'Arizona che a New York City, ma se il rivelatore dovesse emettere un segnale acustico, sapremmo che avevamo trovato una meteora.100%

Dal momento che non abbiamo mai un dispositivo o sistema di misurazione perfettamente accurato, la frazionelikelihoodunconditional p(+)=p(+|C)p(+|C)p(C)+p(+|C¯)p(C¯)<1p(C)posterior=αpriorposterior<priorvalore predittivo positivo (PPV) : probabilità che i soggetti con un test di screening positivo abbiano veramente la malattia.


5

Un problema chiave con la mammografia che non è stato adeguatamente affrontato nel discorso è la definizione errata di "positivo". Questo è descritto nel capitolo Diagnosi in http://biostat.mc.vanderbilt.edu/ClinStat - vedi il link per la biostatistica nella ricerca biomedica lì.

Uno dei sistemi di codifica diagnostica più utilizzati nella mammografia è il punteggio BI-RADS, e un punteggio di 4 è un risultato "positivo" frequente. La definizione di categoria 4 è "Non caratteristica del carcinoma mammario, ma ragionevole probabilità di essere maligna (dal 3 al 94%); la biopsia deve essere considerata". Con una gamma di rischio che va da 0,03 a 0,94 per una categoria , vale a dire un'incredibile eterogeneità in ciò che significa "positivo", non c'è da meravigliarsi se abbiamo un pasticcio tra le mani.

È anche un segno di pensiero poco chiaro che il sistema BI-RADS non ha categoria per qualcuno con un rischio stimato di 0,945.

Come sostiene Nate Silver in modo così eloquente in The Signal and the Noise , se dovessimo pensare in modo probabilistico prenderemmo decisioni migliori dappertutto. La rimozione di termini come "positivo" e "negativo" per i test medici eliminerebbe i falsi positivi e i falsi negativi e trasmetterebbe incertezza (e giustificazione per più test prima di fare una diagnosi) in modo ottimale.


Stavamo scrivendo in sincronia pratica - controlla i miei commenti qui sotto su BI-RADS. Non potrei essere più d'accordo (tonnellate di esperienza personale su questo come radiologo).
Antoni Parellada,

3

C'è una bella discussione di questo nel libro Rischi calcolati

Gran parte del libro riguarda la ricerca di modi più chiari di parlare e pensare a probabilità e rischio. Un esempio:

La probabilità che una donna di 40 anni abbia il cancro al seno è di circa l'1%. Se ha un carcinoma mammario, la probabilità di essere positiva su una mammografia di screening è di circa il 90 percento. Se non ha il carcinoma mammario, la probabilità che sarà comunque positiva è del 9 percento. Quali sono le probabilità che una donna che risulta positiva abbia effettivamente il cancro al seno?

Questo è il modo in cui il libro presenta la soluzione, usando le "frequenze naturali". Considera 10.000 donne, l'1% ha il cancro e quindi 100 donne. Di questi, il 90% restituirà test positivi (cioè 90 donne con cancro saranno positive). Dei 9900 senza cancro, il 9% restituirà test positivi o 891 donne. Quindi ci sono 891 + 90 = 981 donne con test positivi di cui 90 hanno il cancro. Quindi la possibilità che una donna con un test positivo abbia il cancro è 90/981 = 0,092

Se il 100% delle donne con tumore risulta positivo, ciò cambia solo leggermente i numeri in 100 / (100 + 891) = 0,1

Approccio in frequenza naturale alla comprensione dei falsi positivi


1

Forse questa linea di pensiero è corretta ?:

.011

0.0025


1

Ecco un modo semplificato ma intuitivo per vederlo. Considera 100 persone. Uno ha il cancro e sarà positivo. Dei 99 che non lo fanno, uno di loro riceverà un test falso positivo. Quindi, dei due aspetti positivi, uno avrà il cancro e uno no.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.