Cosa significa che l'AUC è una regola di punteggio semi-corretta?


16

Una regola di punteggio appropriata è una regola che viene massimizzata da un modello "vero" e non consente "copertura" o gioco del sistema (riportare deliberatamente risultati diversi come è la vera convinzione del modello per migliorare il punteggio). Il punteggio Brier è corretto, l'accuratezza (proporzione classificata correttamente) è impropria e spesso scoraggiata. A volte vedo che l'AUC è definita una regola di punteggio semi-corretta che la rende non completamente falsa come precisione, ma meno sensibile delle regole appropriate (ad esempio qui /stats//a/90705/53084 ).

Cosa significa regola del punteggio semi-corretta? È definito da qualche parte?


Una fonte o un riferimento in cui vedi il termine può aiutare le persone a scavare?
Sixiang.Hu

Credo che ciò abbia a che fare con il fatto che l'AUC è approssimativamente uguale all'indice di concordanza, che è un punteggio adeguato, nel caso della previsione di probabilità. Ma suona come una domanda a cui Frank Harrell può rispondere: stats.stackexchange.com/users/4253/frank-harrell
Brash Equilibrium

2
per quanto ne so, AUC È l'indice di concordanza, che non è propenso.
rep_ho,

Risposte:


14

Cominciamo con un esempio. Di 'che Alice è un allenatore di pista e vuole scegliere un atleta per rappresentare la squadra in un prossimo evento sportivo, uno sprint di 200 metri. Ovviamente vuole scegliere il corridore più veloce.

  • Una regola di punteggio rigorosamente corretta sarebbe quella di nominare il corridore più veloce della squadra per la distanza di 200 m. Questo massimizza esattamente ciò che l'allenatore Alice vuole in questa situazione. Viene selezionato l'atleta con le prestazioni più veloci previste: si tratta di un test discriminatorio equo.
  • Una regola di punteggio corretta sarebbe quella di scegliere un atleta in grado di correre 200 m il più veloce ma il tempo è arrotondato alla metà del secondo più vicino. Anche il miglior atleta e potenzialmente alcuni altri atleti saranno in grado di superare questo test. Tutti gli atleti selezionati in questo modo sono abbastanza competitivi, ma chiaramente questo non è un perfetto test discriminatorio della velocità.
  • Una regola di punteggio semi-corretta sarebbe quella di scegliere un atleta in grado di correre 200 m al di sotto di una soglia di tempo competitiva, ad esempio 22 secondi. Come prima, anche il miglior atleta e alcuni altri atleti potranno superare questo test. Allo stesso modo tutti gli atleti selezionati in questo modo potrebbero essere abbastanza competitivi, ma chiaramente non solo questo non è un test discriminatorio perfetto, ma può anche andare terribilmente male (se scegliamo un tempo troppo indulgente o troppo rigoroso). Nota che non è assolutamente sbagliato.
  • Una regola di punteggio impropria sarebbe quella di scegliere l'atleta con le gambe più forti, ad esempio chi può accovacciare più pesi. Certamente, qualsiasi buon velocista probabilmente ha gambe molto forti ma questo test significa che alcuni ragazzi della squadra di sollevamento pesi eccelleranno qui. Chiaramente un sollevatore di pesi in una corsa di 200 metri sarebbe catastrofico!

Mentre un po 'banalizzato, l'esempio sopra mostra cosa succede con l'uso delle regole di punteggio. Alice aveva previsto il tempo di sprint previsto. Nel contesto della classificazione, prevediamo probabilità che minimizzino l'errore di un classificatore probabilistico.

  • Una regola di punteggio rigorosamente corretta , come il punteggio di Brier, garantisce che il punteggio migliore verrà raggiunto solo quando saremo il più vicino possibile alle vere probabilità.
  • Una regola di punteggio appropriata , come il punteggio di probabilità classificato continuo (CRPS), non garantisce che il punteggio migliore verrà raggiunto solo da un classificatore le cui previsioni sono le più vicine alle probabilità reali. Altri classificatori candidati potrebbero raggiungere punteggi CRPS corrispondenti a quelli del classificatore ottimale.
  • Una regola di punteggio semi-propria , come l'AUC-ROC, non solo non garantisce che le migliori prestazioni saranno raggiunte da un classificatore le cui previsioni sono le più vicine alle probabilità reali, ma è anche (potenzialmente) possibile migliorare i valori di AUC-ROC allontanando le probabilità previste dai loro valori reali. Tuttavia, a determinate condizioni (ad es. La distribuzione delle classi è nota a priori nel caso di AUC-ROC), tali regole possono approssimare una regola di punteggio adeguata. Byrne (2016) " Una nota sull'uso dell'AUC empirica per la valutazione delle previsioni probabilistiche " solleva alcuni punti interessanti riguardanti l'AUC-ROC.
  • Una regola di punteggio impropria , come Precisione, offre poca o nessuna connessione al nostro compito originale di prevedere le probabilità il più vicino possibile alle probabilità reali.

Come vediamo la regola del punteggio semi-corretta non è perfetta, ma non è nemmeno del tutto catastrofica. In realtà può essere molto utile durante la previsione! Cagdas Ozgenc ha un ottimo esempio qui in cui è preferibile lavorare con una regola impropria / semi-propria rispetto a una regola strettamente corretta. In generale, il termine regola del punteggio semi-propria non è molto comune. È associato a regole improprie che possono essere comunque utili (ad es. AUC-ROC o MAE nella classificazione probabilistica).

Infine, nota qualcosa di importante. Poiché lo sprint è associato a gambe forti, lo stesso vale per la corretta classificazione probabilistica con Precisione. È improbabile che un buon velocista abbia gambe deboli e allo stesso modo è improbabile che un buon classificatore abbia una cattiva precisione. Tuttavia, equiparare la precisione a una buona prestazione di classificazione è come equiparare la forza della gamba con una buona prestazione di scatto. Non del tutto infondato, ma molto plausibile per portare a risultati insensati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.