Come interpretare una curva ROC?

14

Ho applicato la regressione logistica ai miei dati su SAS e qui ci sono la curva ROC e la tabella di classificazione.

inserisci qui la descrizione dell'immagine

Sono a mio agio con le cifre nella tabella di classificazione, ma non sono esattamente sicuro di ciò che mostrano la curva roc e l'area sotto di essa. Qualsiasi spiegazione sarebbe molto apprezzata.

— Günal
fonte

21

Quando si esegue la regressione logistica, vengono assegnate due classi codificate come e . Ora, calcoli le probabilità che danno alcune varialbe esplicative di un individuo appartiene alla classe codificata come . Se ora scegli una soglia di probabilità e classifica tutti gli individui con una probabilità maggiore di questa soglia come classe e inferiore come $1$ $0$ $1$ $1$ $0$ , nella maggior parte dei casi commetterai degli errori perché di solito due gruppi non possono essere discriminati perfettamente. Per questa soglia ora puoi calcolare i tuoi errori e la cosiddetta sensibilità e specificità. Se lo fai per molte soglie, puoi costruire una curva ROC tracciando la sensibilità rispetto a 1-Specificità per molte possibili soglie. L'area sotto la curva entra in gioco se si desidera confrontare diversi metodi che tentano di discriminare tra due classi, ad esempio l'analisi discriminante o un modello probit. È possibile costruire la curva ROC per tutti questi modelli e quella con l'area più alta sotto la curva può essere vista come il modello migliore.

Se hai bisogno di una comprensione più profonda, puoi anche leggere la risposta di una domanda diversa riguardo alle curve ROC facendo clic qui.

— tizio a caso
fonte

In che modo l'area sotto la curva ROC differisce dalla frequenza corretta nella tabella di classificazione?

— Günal,

2

La tabella mostra solo il corretto e non corretto per una soglia. Tuttavia, la curva AUROC è una misura del metodo di classificazione completo e la corretta e non corretta per molte soglie diverse.

— random_guy

È bello sentirlo!

— random_guy,

6

L'AUC ti sta semplicemente dicendo con quale frequenza un'estrazione casuale dalle tue probabilità di risposta prevista sui tuoi dati con 1 etichetta sarà maggiore di un'estrazione casuale dalle tue probabilità di risposta prevista sui tuoi dati con 0.

— jlemaitre
fonte

6

Il modello di regressione logistica è un metodo di stima della probabilità diretta. La classificazione non dovrebbe svolgere alcun ruolo nel suo utilizzo. Qualsiasi classificazione non basata sulla valutazione delle utilità (funzione di perdita / costo) su singoli soggetti è inappropriata, tranne in caso di emergenze molto speciali. La curva ROC non è utile qui; né la sensibilità né la specificità che, come l'accuratezza della classificazione generale, sono regole di punteggio di accuratezza improprie che sono ottimizzate da un modello fasullo non adattato dalla stima della massima verosimiglianza.

$c$ $15p$ $Y$ $p$ $\leq 0.05$ con confidenza 0,95.

— Frank Harrell
fonte

@Frank Harrell: potresti approfondire il calcolo relativo all'intercettazione e il commento sul margine di errore. Grazie!

— luglio

@FrankHarrell si applica il tuo consiglio che abbiamo bisogno di almeno 15p di osservazioni se finiamo per fare la regressione della cresta per calibrare il modello? La mia comprensione è che sostituiamo p allora con l'effettiva dimensionalità.

— Lepidopterist,

Corretto, e direi che usi la penalizzazione come la penalità quadratica (cresta) per stimare i parametri, il che si traduce in una migliore calibrazione

— Frank Harrell,

4

Non sono l'autore di questo blog e ho trovato questo blog estremamente utile: http://fouryears.eu/2011/10/12/roc-area-under-the-curve-explained

Applicando questa spiegazione ai tuoi dati, l'esempio positivo medio ha circa il 10% degli esempi negativi con un punteggio più alto di esso.

— Aerin
fonte