Quando è appropriato utilizzare una regola di punteggio impropria?


27

Merkle & Steyvers (2013) scrivono:

Per definire formalmente una regola di punteggio adeguata, sia una previsione probabilistica di una prova di Bernoulli d con probabilità di successo reale p . Le regole di punteggio corrette sono metriche i cui valori previsti sono ridotti al minimo se f = p .fdpf=p

Capisco che questo è positivo perché vogliamo incoraggiare i meteorologi a generare previsioni che riflettano onestamente le loro vere credenze e non vogliamo dare loro incentivi perversi a fare diversamente.

Ci sono esempi nel mondo reale in cui è appropriato usare una regola di punteggio impropria?

Riferimento
Merkle, EC, & Steyvers, M. (2013). Scelta di una regola di punteggio strettamente corretta. Analisi decisionale, 10 (4), 292-304


1
Penso che la prima colonna dell'ultima pagina di Winkler & Jose "Punteggi" (2010) di cui Merkle & Steyvers (2013) citano una risposta. Vale a dire, se l'utilità non è una trasformazione affine del punteggio (che potrebbe essere giustificata dall'avversione al rischio e simili), la massimizzazione dell'utilità attesa sarebbe in conflitto con la massimizzazione del punteggio atteso
Richard Hardy,

Risposte:


25

È opportuno utilizzare una regola di punteggio impropria quando lo scopo è effettivamente la previsione, ma non l'inferenza. Non mi interessa davvero se un altro previsore tradisce o no quando sono io quello che farà la previsione.

Adeguate regole di punteggio assicurano che durante il processo di stima il modello si avvicini al vero processo di generazione dei dati (DGP). Questo sembra promettente perché quando ci avviciniamo al vero DGP faremo anche bene in termini di previsione con qualsiasi funzione di perdita. Il problema è che la maggior parte delle volte (in realtà quasi sempre) il nostro spazio di ricerca del modello non contiene il vero DGP. Finiamo per approssimare il vero DGP con qualche forma funzionale che proponiamo.

In questo contesto più realistico, se il nostro compito di previsione è più semplice che capire l'intera densità del vero DGP, potremmo effettivamente fare di meglio. Ciò è particolarmente vero per la classificazione. Ad esempio, il vero DGP può essere molto complesso, ma l'attività di classificazione può essere molto semplice.

Yaroslav Bulatov ha fornito il seguente esempio nel suo blog:

http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html

X0X<0

inserisci qui la descrizione dell'immagine

Invece di far corrispondere la densità esatta sopra, proponiamo il modello grezzo qui sotto, che è abbastanza lontano dal vero DGP. Tuttavia fa una classificazione perfetta. Questo si trova usando la perdita della cerniera, che non è corretta.

inserisci qui la descrizione dell'immagine

D'altra parte, se decidi di trovare il vero DGP con log-loss (che è corretto), allora inizi a montare alcuni funzionali, poiché non sai quale sia l'esatta forma funzionale di cui hai bisogno a priori. Ma mentre cerchi sempre di più di abbinarlo, inizi a classificare erroneamente le cose.

inserisci qui la descrizione dell'immagine

Si noti che in entrambi i casi abbiamo utilizzato le stesse forme funzionali. Nel caso di perdita impropria, è degenerato in una funzione a gradini che a sua volta ha fatto una classificazione perfetta. Nel caso corretto, è impazzito nel tentativo di soddisfare ogni regione della densità.

Fondamentalmente non abbiamo sempre bisogno di realizzare il vero modello per avere previsioni accurate. O a volte non abbiamo davvero bisogno di fare del bene sull'intero dominio della densità, ma essere molto bravi solo su alcune parti di esso.


13
Questo è un esempio affascinante, davvero un po 'di spunti di riflessione.
Matthew Drury,

7

La precisione (cioè la percentuale corretta di classificazione) è una regola di punteggio impropria, quindi in un certo senso la gente lo fa sempre.

Più in generale, qualsiasi regola di punteggio che forza le previsioni in una categoria predefinita sarà impropria. La classificazione è un caso estremo (le uniche previsioni consentite sono lo 0% e il 100%), ma le previsioni meteorologiche sono probabilmente anche leggermente improprie - le mie stazioni locali sembrano segnalare la possibilità di pioggia a intervalli del 10 o 20%, anche se scommetterei che il modello sottostante è molto più preciso.

Le regole di punteggio adeguate presuppongono inoltre che il previsore sia neutrale rispetto al rischio. Questo non è spesso il caso dei veri previsori umani, che in genere sono avversi al rischio, e alcune applicazioni potrebbero beneficiare di una regola di punteggio che riproduce tale pregiudizio. Ad esempio, potresti dare un po 'di peso in più a P (pioggia) poiché trasportare un ombrello ma non averne bisogno è molto meglio che essere sorpreso da un acquazzone.


3
Non credo di aver capito il tuo terzo paragrafo. Avevo scritto una risposta simile sulla falsariga che potremmo voler concentrare maggiormente sull'ottenimento di alti quantili di densità predittive, ma non vedo come una tale funzione di perdita ci motiverebbe a usare una regola di punteggio impropria. Dopotutto, saremmo ancora più motivati ​​a prevedere la corretta distribuzione futura. Potresti elaborare?
S. Kolassa - Ripristina Monica il

1
Se il meteorologo massimizza l'utilità prevista (anziché il valore), le regole di calcolo del punteggio potrebbero non essere effettivamente appropriate (ad esempio, se l'utilità non è una funzione lineare del punteggio). Tuttavia, se conosci o riesci a stimare la funzione di utilità, suppongo che potresti trovare una regola di calcolo del punteggio appositamente adattata invece applicando il suo inverso.
Matt Krause,

3
Ma la correttezza o meno della regola di punteggio non è correlata all'utilità, ma solo alla distribuzione futura prevista ed effettiva, quindi non sto ancora capendo la prima frase del tuo commento, né perché vorremmo usare una regola di punteggio impropria . Tuttavia, mi ricordi un articolo di Ehm ad al, che apparirà nel JRSS-B , che ho sfogliato scrivendo la mia risposta interrotta, ma dove non ho trovato nulla di utile per la domanda attuale: una lettura più approfondita potrebbe essere più utile.
S. Kolassa - Ripristina Monica il

@StephanKolassa, forse la prima colonna dell'ultima pagina di Winkler & Jose "Scoring rules" (2010) lo spiega?
Richard Hardy,

I commenti non sono per una discussione estesa; questa conversazione è stata spostata in chat .
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.