Risposte:
La proporzione classificata correttamente è una regola di punteggio impropria, ovvero è ottimizzata da un modello fasullo. Vorrei usare la regola quadratica del punteggio corretto nota come punteggio di Brier o la probabilità di concordanza (area sotto la curva ROC nel caso binario ). La foresta casuale funziona meglio di SVM nel tuo caso.
Penso che dovresti assolutamente esaminare più metriche oltre all'AUC e alla precisione.
La precisione (insieme a sensibilità e specificità) è una metrica molto semplice ma distorta che ti costringe a guardare il risultato di previsione assoluto e non si apre per l'affermazione delle probabilità o della classifica della classe. Inoltre, non tiene conto della popolazione, il che invita a interpretare erroneamente un modello che fornisce un'accuratezza del 95% su una popolazione con una probabilità del 95% di essere corretta a caso non è un buon modello, anche se l'accuratezza è elevata.
L'AUC è una buona metrica per affermare l'accuratezza del modello che è indipendente dalle probabilità della classe di popolazione. Tuttavia, non ti dirà nulla sull'efficacia delle stime di probabilità. Potresti ottenere un AUC elevato ma hai ancora stime di probabilità molto distorte. Questa metrica è più discriminatoria della precisione e ti darà sicuramente modelli migliori se utilizzata in combinazione con una regola di punteggio adeguata, ad esempio il punteggio di Brier, come menzionato in un altro post.
Puoi ottenere una prova più formale qui, anche se questo documento è abbastanza teorico: AUC: una misura statisticamente coerente e più discriminante della precisione
Ci sono tuttavia un sacco di buone metriche disponibili. Funzioni di perdita per la stima e la classificazione della probabilità della classe binaria: Struttura e applicazioni è un buon documento che indaga su regole di punteggio adeguate come il punteggio di Brier.
Un altro documento interessante con metriche per l'affermazione delle prestazioni del modello è la valutazione: dalla precisione, dal richiamo e dalla misura F al ROC, informalità, marcatura e correlazione che riprendono altre metriche di buone prestazioni come l'informazione.
Per riassumere, consiglierei di guardare il punteggio AUC / Gini e Brier per affermare le prestazioni del tuo modello, ma a seconda dell'obiettivo con il tuo modello altre metriche potrebbero adattarsi meglio al tuo problema.