È opportuno utilizzare una regola di punteggio impropria quando lo scopo è effettivamente la previsione, ma non l'inferenza. Non mi interessa davvero se un altro previsore tradisce o no quando sono io quello che farà la previsione.
Adeguate regole di punteggio assicurano che durante il processo di stima il modello si avvicini al vero processo di generazione dei dati (DGP). Questo sembra promettente perché quando ci avviciniamo al vero DGP faremo anche bene in termini di previsione con qualsiasi funzione di perdita. Il problema è che la maggior parte delle volte (in realtà quasi sempre) il nostro spazio di ricerca del modello non contiene il vero DGP. Finiamo per approssimare il vero DGP con qualche forma funzionale che proponiamo.
In questo contesto più realistico, se il nostro compito di previsione è più semplice che capire l'intera densità del vero DGP, potremmo effettivamente fare di meglio. Ciò è particolarmente vero per la classificazione. Ad esempio, il vero DGP può essere molto complesso, ma l'attività di classificazione può essere molto semplice.
Yaroslav Bulatov ha fornito il seguente esempio nel suo blog:
http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html
x ≥ 0x < 0
Invece di far corrispondere la densità esatta sopra, proponiamo il modello grezzo qui sotto, che è abbastanza lontano dal vero DGP. Tuttavia fa una classificazione perfetta. Questo si trova usando la perdita della cerniera, che non è corretta.
D'altra parte, se decidi di trovare il vero DGP con log-loss (che è corretto), allora inizi a montare alcuni funzionali, poiché non sai quale sia l'esatta forma funzionale di cui hai bisogno a priori. Ma mentre cerchi sempre di più di abbinarlo, inizi a classificare erroneamente le cose.
Si noti che in entrambi i casi abbiamo utilizzato le stesse forme funzionali. Nel caso di perdita impropria, è degenerato in una funzione a gradini che a sua volta ha fatto una classificazione perfetta. Nel caso corretto, è impazzito nel tentativo di soddisfare ogni regione della densità.
Fondamentalmente non abbiamo sempre bisogno di realizzare il vero modello per avere previsioni accurate. O a volte non abbiamo davvero bisogno di fare del bene sull'intero dominio della densità, ma essere molto bravi solo su alcune parti di esso.