Confronta i classificatori in base a AUROC o precisione?

11

Ho un problema di classificazione binaria e provo diversi classificatori su di esso: voglio confrontare i classificatori. quale è una misura migliore AUC o precisione? E perché?

Raondom Forest: AUC: 0.828  Accuracy: 79.6667 %
           SVM: AUC: 0.542  Accuracy: 85.6667 %

machine-learning classification auc

— sina
fonte

13

La proporzione classificata correttamente è una regola di punteggio impropria, ovvero è ottimizzata da un modello fasullo. Vorrei usare la regola quadratica del punteggio corretto nota come punteggio di Brier o la probabilità di concordanza (area sotto la curva ROC nel caso binario ). La foresta casuale funziona meglio di SVM nel tuo caso. $Y$

— Frank Harrell
fonte

Se per il soggetto nel tuo campione è il risultato binario osservato e è la probabilità prevista di un '1', allora il punteggio di Brier è (se ricordo) . Poiché l'OP ha un problema di classificazione binaria, sono noti ma come si calcola per SVM?

i

$i$

o_{i} \in {0, 1}

$o_i \in \{0,1\}$

{\hat{f}}_{i}

$\hat{f}_i$

B = \frac{1}{n} \sum_{i = 1}^{n} ({\hat{f}}_{i} - o_{i})^{2}

$B=\frac{1}{n} \sum_{i=1}^n (\hat{f}_i - o_i)^2$

o_{i}

$o_i$

{\hat{f}}_{i}

$\hat{f}_i$

@fcop C'è un modo per trasformare una previsione di classificazione binaria di SVM in una probabilità, chiamata Platt Scaling ( en.wikipedia.org/wiki/Platt_scaling ). In sostanza, anziché calcolare la classificazione SVM ( o ) come , dove è la soluzione alla programmazione quadratica convessa SVM problema, il ridimensionamento di Platt richiede una trasformazione logistica di : dove e sono parametri determinati dall'algoritmo di ridimensionamento Platt.

{\hat{y}}_{i}

$\hat y_i$

= + 1

$= +1$

- 1

$-1$

{\hat{y}}_{i} = s i g n (g (y_{i}, x_{i}))

$\hat y_i = sign(g(y_i,x_i))$

g (y_{i}, x_{i})

$g(y_i,x_i)$

g (y_{i}, x_{i})

$g(y_i,x_i)$

{\hat{f}}_{i} = P (Y = 1 | x_{i}) = \frac{1}{1 + e x p (A \times g (y_{i}, x_{i}) + B)}

$\hat f_i = P(Y=1|x_i)=\frac{1}{1+exp(A \times g(y_i,x_i) + B)}$

A

$A$

B

$B$

— RobertF

8

Penso che dovresti assolutamente esaminare più metriche oltre all'AUC e alla precisione.

La precisione (insieme a sensibilità e specificità) è una metrica molto semplice ma distorta che ti costringe a guardare il risultato di previsione assoluto e non si apre per l'affermazione delle probabilità o della classifica della classe. Inoltre, non tiene conto della popolazione, il che invita a interpretare erroneamente un modello che fornisce un'accuratezza del 95% su una popolazione con una probabilità del 95% di essere corretta a caso non è un buon modello, anche se l'accuratezza è elevata.

L'AUC è una buona metrica per affermare l'accuratezza del modello che è indipendente dalle probabilità della classe di popolazione. Tuttavia, non ti dirà nulla sull'efficacia delle stime di probabilità. Potresti ottenere un AUC elevato ma hai ancora stime di probabilità molto distorte. Questa metrica è più discriminatoria della precisione e ti darà sicuramente modelli migliori se utilizzata in combinazione con una regola di punteggio adeguata, ad esempio il punteggio di Brier, come menzionato in un altro post.

Puoi ottenere una prova più formale qui, anche se questo documento è abbastanza teorico: AUC: una misura statisticamente coerente e più discriminante della precisione

Ci sono tuttavia un sacco di buone metriche disponibili. Funzioni di perdita per la stima e la classificazione della probabilità della classe binaria: Struttura e applicazioni è un buon documento che indaga su regole di punteggio adeguate come il punteggio di Brier.

Un altro documento interessante con metriche per l'affermazione delle prestazioni del modello è la valutazione: dalla precisione, dal richiamo e dalla misura F al ROC, informalità, marcatura e correlazione che riprendono altre metriche di buone prestazioni come l'informazione.

Per riassumere, consiglierei di guardare il punteggio AUC / Gini e Brier per affermare le prestazioni del tuo modello, ma a seconda dell'obiettivo con il tuo modello altre metriche potrebbero adattarsi meglio al tuo problema.

— mentre
fonte

Il collegamento per la valutazione: dalla precisione, dal richiamo e dalla misura F al ROC, informalità, marcatura e correlazione sono morti

— vonjd,

Se per soggetto

nel campione

è il risultato binario osservato e

è la probabilità prevista di un '1' il punteggio è Brier (se non ricordo)

i

$i$

o_{i} \in {0, 1}

$o_i \in \{0,1\}$

{\hat{f}}_{i}

$\hat{f}_i$

B = \frac{1}{n} \sum_{i = 1}^{n} ({\hat{f}}_{i} - o_{i})^{2}

$B=\frac{1}{n} \sum_{i=1}^n (\hat{f}_i - o_i)^2$

o_{i}

$o_i$

{\hat{f}}_{i}

$\hat{f}_i$

Nessun briercore non è eccezionale per i metodi che ti danno solo un risultato e non una probabilità. Niether è auc anche se questo ti dirà quanto bene classifica le tue previsioni. Con solo risultati otterrai solo un punto nello spazio ROC, quindi dandoti l'area sotto la curva sarà il triangolo. Ma ti fornirà comunque un numero e così anche il briercore seppur si trasformerà più o meno in perdita 0-1. Se hai solo risultati, ti suggerisco di guardare Precision, Recall e Cohen's Kappa, che sono metriche progettate per quando hai risultati.

— mentre il