Diciamo che abbiamo un classificatore SVM, come possiamo generare la curva ROC? (Come in teoria) (perché generiamo TPR e FPR con ciascuna soglia). E come possiamo determinare la soglia ottimale per questo classificatore SVM?
Diciamo che abbiamo un classificatore SVM, come possiamo generare la curva ROC? (Come in teoria) (perché generiamo TPR e FPR con ciascuna soglia). E come possiamo determinare la soglia ottimale per questo classificatore SVM?
Risposte:
Utilizzare il classificatore SVM per classificare una serie di esempi annotati e "un punto" nello spazio ROC in base a una previsione degli esempi può essere identificato. Supponiamo che il numero di esempi sia 200, prima conta il numero di esempi dei quattro casi.
Quindi calcolare TPR (True Positive Rate) e FPR (False Positive Rate). e Sullo spazio ROC, l'asse x è FPR e l'asse y è TPR. Quindi si ottiene il punto .
Per disegnare una curva ROC, basta
(1) Regolare alcuni valori di soglia che controllano il numero di esempi etichettati vero o falso
Ad esempio, se la concentrazione di determinate proteine al di sopra dell'α% indica una malattia, valori diversi di α producono valori finali differenti di TPR e FPR. I valori di soglia possono essere semplicemente determinati in modo simile alla ricerca della griglia; etichettare esempi di addestramento con valori soglia diversi, addestrare classificatori con diversi set di esempi etichettati, eseguire il classificatore sui dati di test, calcolare i valori FPR e selezionare i valori soglia che coprono FPR basso (vicino a 0) e alto (vicino a 1) valori, cioè vicini a 0, 0,05, 0,1, ..., 0,95, 1
(2) Genera molti set di esempi annotati
(3) Esegui il classificatore sui set di esempi
(4) Calcola un punto (FPR, TPR) per ciascuno di essi
(5) Disegna la curva ROC finale
Alcuni dettagli possono essere verificati in http://it.wikipedia.org/wiki/Receiver_operating_characteristic .
Inoltre, questi due collegamenti sono utili su come determinare una soglia ottimale. Un metodo semplice è quello di prendere quello con la somma massima di tassi positivi e falsi positivi. Altri criteri più fini possono includere altre variabili che coinvolgono soglie diverse come i costi finanziari, ecc.
Http://www.medicalbiostatistics.com/roccurve.pdf
http://www.kovcomp.co.uk/support/XL-Tut/life-ROC -curves-ricevitore-operatoria characteristic.html
Un modo davvero semplice per scegliere una soglia è quello di prendere i valori previsti mediani dei casi positivi per un set di test. Questa diventa la tua soglia.
La soglia si avvicina relativamente alla stessa soglia che si otterrebbe usando la curva roc in cui si sovrappongono il tasso positivo reale (tpr) e 1 - tasso positivo falso (fpr). Questa croce tpr (croce) 1-fpr massimizza il vero positivo minimizzando i falsi negativi.