Ho appena inventato un metodo bayesiano per l'analisi delle curve ROC?


21

Preambolo

Questo è un post lungo. Se rileggi questo, tieni presente che ho modificato la parte della domanda, sebbene il materiale di sfondo rimanga lo stesso. Inoltre, credo di aver escogitato una soluzione al problema. Quella soluzione appare in fondo al post. Grazie a CliffAB per aver sottolineato che la mia soluzione originale (modificata da questo post; vedi cronologia delle modifiche per quella soluzione) ha necessariamente prodotto stime distorte.

Problema

Nei problemi di classificazione dell'apprendimento automatico, un modo per valutare le prestazioni del modello è confrontando le curve ROC o l'area sotto la curva ROC (AUC). Tuttavia, è la mia osservazione che ci sono preziose discussioni sulla variabilità delle curve ROC o delle stime dell'AUC; cioè, sono statistiche stimate dai dati e quindi hanno alcuni errori ad essi associati. La caratterizzazione dell'errore in queste stime aiuterà, ad esempio, a stabilire se un classificatore sia effettivamente superiore a un altro.

Ho sviluppato il seguente approccio, che chiamo analisi bayesiana delle curve ROC, per risolvere questo problema. Ci sono due osservazioni chiave nel mio pensiero sul problema:

  1. Le curve ROC sono composte da quantità stimate dai dati e sono suscettibili all'analisi bayesiana.

    La curva ROC si compone tracciando il tasso positivo vero rispetto al tasso falso positivo F P R ( θ ) , ciascuno dei quali è, di per sé, stimato dai dati. Considero le funzioni T P R e F P R di θ , la soglia di decisione utilizzata per ordinare la classe A da B (voti dell'albero in una foresta casuale, distanza da un iperpiano in SVM, probabilità previste in una regressione logistica, ecc.). Variando il valore della soglia di decisione θ verranno restituite diverse stime di T P RTPR(θ)FPR(θ)TPRFPRθθTPRe . Inoltre, possiamo considerare T P R ( θ ) come una stima della probabilità di successo in una sequenza di prove di Bernoulli. In effetti, TPR è definito come T PFPRTPR(θ)che è anche la SMV della probabilità di successo binomiale in un esperimento conTPsuccessi eTP+FN>0prove totali.TPTP+FN,TPTP+FN>0

    Quindi considerando l'output di e F P R ( θ ) variabili variabili casuali, ci troviamo di fronte a un problema di stima della probabilità di successo di un esperimento binomiale in cui il numero di successi e fallimenti è noto esattamente (dato da T P , F P , F N e T N , che presumo siano tutti fissi). Convenzionalmente, si usa semplicemente l'MLE e si presume che TPR e FPR siano fissi per valori specifici di θTPR(θ)FPR(θ)TPFPFNTNθ. Ma nella mia analisi bayesiana delle curve ROC, disegno simulazioni posteriori delle curve ROC, ottenute tracciando campioni dalla distribuzione posteriore sulle curve ROC. Un modello Bayesan standard per questo problema è una probabilità binomiale con una beta prima della probabilità di successo; anche la distribuzione posteriore sulla probabilità di successo è beta, quindi per ogni abbiamo una distribuzione posteriore dei valori di TPR e FPR. Questo ci porta alla mia seconda osservazione.θ

  2. Le curve ROC sono non decrescenti. Quindi, una volta che si è campionato un valore di e F P R ( θ ) , non vi è alcuna probabilità di campionare un punto nello spazio ROC "sud-est" del punto campionato. Ma il campionamento vincolato dalla forma è un problema difficile.TPR(θ)FPR(θ)

L'approccio bayesiano può essere utilizzato per simulare un gran numero di AUC da un'unica serie di stime. Ad esempio, 20 simulazioni sembrano così rispetto ai dati originali. Curve ROC simulate

Questo metodo presenta numerosi vantaggi. Ad esempio, la probabilità che l'AUC di un modello sia maggiore di un altro può essere stimata direttamente confrontando l'AUC delle loro simulazioni posteriori. Le stime della varianza possono essere ottenute tramite simulazione, che è più economica dei metodi di ricampionamento e queste stime non comportano il problema dei campioni correlati che derivano dai metodi di ricampionamento.

Soluzione

Ho sviluppato una soluzione a questo problema facendo una terza e quarta osservazione sulla natura del problema, oltre alle due precedenti.

  1. e F P R ( θ ) hanno densità marginali suscettibili di simulazione.TPR(θ)FPR(θ)

    Se (vice F P R ( θ ) ) è una variabile casuale distribuita beta con parametri T P e F N (vice F P e T N ), possiamo anche considerare quale sia la media della densità di TPR sui diversi valori θ che corrispondono alla nostra analisi. Cioè, possiamo considerare un processo gerarchico in cui si campiona un valore ˜ θ dalla raccolta di θTPR(θ)FPR(θ)TPFNFPTNθθ~θ valori ottenuti dalle nostre previsioni del modello fuori campione, quindi campiona un valore di . Una distribuzione sui campioni risultanti di T P R ( ˜ θTPR(θ~)valori ) è una densità del tasso positivo reale che è incondizionata su θ stesso. Poiché stiamo assumendo un modello beta per T P R ( θ ) , la distribuzione risultante è una miscela di distribuzioni beta, con un numero di componenti c pari alla dimensione della nostra raccolta di θ e coefficienti di miscela 1 /TPR(θ~)θTPR(θ)cθ .1/c

    In questo esempio, ho ottenuto il seguente CDF su TPR. In particolare, a causa della degenerazione delle distribuzioni beta in cui uno dei parametri è zero, alcuni dei componenti della miscela hanno la funzione delta di Dirac a 0 o 1. Questo è ciò che provoca gli improvvisi picchi a 0 e 1. Questi "picchi" implicano che queste densità non sono né continue né discrete. Una scelta del priore che è positiva in entrambi i parametri avrebbe l'effetto di "livellare" questi picchi improvvisi (non mostrati), ma le curve ROC risultanti verranno tirate verso il priore. Lo stesso può essere fatto per FPR (non mostrato). Il prelievo di campioni dalle densità marginali è una semplice applicazione del campionamento di trasformazioni inverse.

CDF di TPR

  1. Per risolvere il requisito di vincolo di forma, dobbiamo solo ordinare TPR e FPR in modo indipendente.

    Beta(0,0)

inserisci qui la descrizione dell'immagine

Confronto con Bootstrap

n=20

inserisci qui la descrizione dell'immagine

Questa dimostrazione mostra che la media del bootstrap è distorta al di sotto della media del campione originale e che il KDE del bootstrap produce "humps" ben definiti. La genesi di questi gobbe non è misteriosa: la curva ROC sarà sensibile all'inclusione di ciascun punto e l'effetto di un piccolo campione (qui, n = 20) è che la statistica sottostante è più sensibile all'inclusione di ciascuno punto. (Sicuramente, questo modello non è un artefatto della larghezza di banda del kernel - nota la trama del tappeto. Ogni striscia ha diversi replicati bootstrap che hanno lo stesso valore. Il bootstrap ha 2000 replicati, ma il numero di valori distinti è chiaramente molto più piccolo. può concludere che le gobbe sono una caratteristica intrinseca della procedura bootstrap. Al contrario, le stime dell'AUC bayesiane tendono ad essere molto vicine alla stima originale,

Domanda

La mia domanda rivista è se la mia soluzione rivista non è corretta. Una buona risposta dimostrerà (o confuterà) che i campioni risultanti delle curve ROC sono distorti o allo stesso modo dimostrano o confutano altre qualità di questo approccio.


1
Penso che tu stia dando troppa fiducia alle curve ROC. Non ho visto un singolo caso in cui portano a intuizioni. Ho visto molti casi in cui portano a soglie che è davvero una cattiva idea.
Frank Harrell,

1
@FrankHarrell Grazie per la nota, Dr. Harrell. Ma per i miei clienti, ho il compito di sviluppare classificatori che prenderanno le decisioni in modo autonomo in set di dati molto grandi. Apprezzo che in un contesto medico, ciò sia altamente improduttivo, ma l'analisi di utilità / costo da parte di esperti per ogni osservazione è semplicemente poco pratica quando dobbiamo prendere decisioni su migliaia di punti dati. Dobbiamo fare delle scelte su quale modello implementare per svolgere questo compito e il ROC / AUC aiuta a prendere quella decisione.
Sycorax dice di reintegrare Monica il

2
Dato che hai previsto le probabilità, non stai comunque utilizzando un classificatore, almeno all'inizio del processo. I servizi pubblici prenderebbero decisioni migliori ma se non si è in grado di ottenere programmi di utilità, è comunque possibile pensarci in modo diverso rispetto alle curve ROC utilizzando le curve di sollevamento e le soglie di rischio decisionale. Questo non è davvero un problema medico.
Frank Harrell,

3
X1+X2<1X1,X2X1X2

3
Inizia con le mie note sul corso: vedi biostat.mc.vanderbilt.edu/CourseBios330 . Guarda anche Biostatistics for Biomedical Research disponibile su biostat.mc.vanderbilt.edu/ClinStat , in particolare il capitolo Perdita di informazioni e l'inizio del capitolo 10.
Frank Harrell,

Risposte:


7

Prima di tutto, non esiste un modo accettato per "analizzare" una curva ROC: è semplicemente un elemento grafico che ritrae l'abilità predittiva di un modello di classificazione. Puoi certamente riassumere una curva ROC usando una statistica c o l'AUC, ma calcolando gli intervalli di confidenza ed eseguendo l'inferenza usandoc

È generalmente abbastanza accettato che è possibile stimare la variabilità delle curve ROC usando il bootstrap di Pepe Etzione Feng . Questo è un buon approccio perché la curva ROC è una stima empirica e il bootstrap non è parametrico. La parametrizzazione di qualcosa in tal modo introduce ipotesi e complicazioni come "un precedente piatto è davvero non informativo?" Non sono convinto che questo sia il caso qui.

θθ

Prendi, ad esempio, un modello con perfetta discriminazione. Usando il tuo metodo, scoprirai che le bande di confidenza sono il quadrato dell'unità. Non sono! Non c'è variabilità in un modello con perfetta discriminazione. Un bootstrap te lo mostrerà.

Se si dovesse affrontare il problema dell '"analisi" ROC da una prospettiva bayesiana, sarebbe forse più utile affrontare il problema della selezione dei modelli mettendo un precedente sullo spazio dei modelli utilizzati per l'analisi. Sarebbe un problema molto interessante.


Non sono sicuro che questa risposta risponda al contenuto del post. Ad esempio, ho appena simulato le curve ROC per un modello con una discriminazione perfetta. Queste curve sono tutte concentrate nell'estremo angolo nord-occidentale dello spazio ROC e un intervallo centrale attorno alle simulazioni AUC sono alcuni numeri molto vicini a 1. Ciò è in diretta contraddizione con l'affermazione nella risposta, che afferma che le simulazioni devono trovarsi su tutto il quadrato dell'unità.
Sycorax dice di ripristinare Monica

1
θθTPR(θ)FPR(θ)

θ

θθ

@ user777 che cosa ha esattamente un precedente?
AdamO
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.