Perché utilizzare una certa misura dell'errore di previsione (ad es. MAD) anziché un'altra (ad es. MSE)?


15

MAD = Deviazione assoluta media MSE = Errore quadrato medio

Ho visto suggerimenti da vari luoghi che MSE viene utilizzato nonostante alcune qualità indesiderabili (ad esempio http://www.stat.nus.edu.sg/~staxyc/T12.pdf , che afferma a p8 "Si ritiene comunemente che MAD è un criterio migliore di MSE. Tuttavia, matematicamente MSE è più conveniente di MAD. ")

C'è di più? Esiste un documento che analizza a fondo le situazioni in cui vari metodi di misurazione dell'errore di previsione sono più / meno appropriati? Le mie ricerche su Google non hanno rivelato nulla.

Una domanda simile a questa è stata posta a /programming/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sde e all'utente è stato chiesto di pubblica su stats.stackexchange.com, ma non credo che lo abbiano mai fatto.


2
MAD è in genere una deviazione assoluta mediana piuttosto che media, no?
Brian D,

@BrianD: nella più ampia comunità di statistiche, hai ragione. Nella più ristretta comunità di previsioni , "MAD" è invariabilmente la "media deviazione assoluta", AKA MAE .
Stephan Kolassa,

Risposte:


23

Per decidere quale misura dell'errore di previsione del punto usare, dobbiamo fare un passo indietro. Si noti che non conosciamo perfettamente i risultati futuri, né lo faremo mai. Quindi il risultato futuro segue una distribuzione di probabilità . Alcuni metodi di previsione producono esplicitamente una distribuzione così completa, altri no - ma è sempre lì, anche se solo implicitamente.

Ora, vogliamo avere una buona misura di errore per una previsione puntuale . Una tale previsione puntuale Ft è il nostro tentativo di sintetizzare ciò che sappiamo sulla distribuzione futura (cioè la distribuzione predittiva) al momento t usando un singolo numero, una cosiddetta funzione della densità futura. La misura dell'errore è quindi un modo per valutare la qualità di questo riepilogo a numero singolo.

Quindi dovresti scegliere una misura di errore che premia "buoni" sommari di un numero di densità future (sconosciute, probabilmente previste, ma probabilmente solo implicite).

La sfida è che diverse misure di errore sono minimizzate da diversi funzionali. Il MSE atteso è ridotto al minimo dal valore atteso della distribuzione futura. Il MAD atteso è minimizzato dalla mediana della distribuzione futura. Pertanto, se si calibrano le previsioni per ridurre al minimo il MAE, la previsione dei punti sarà la mediana futura, non il valore atteso futuro e le previsioni saranno distorte se la distribuzione futura non è simmetrica.

Ciò è particolarmente rilevante per i dati di conteggio, che sono generalmente distorti. In casi estremi (ad esempio, Poisson ha distribuito le vendite con una media inferiore al log20.69 ), il tuo MAE sarà più basso per una previsione zero piatta. Vedi qui o qui o qui per i dettagli.

Fornisco ulteriori informazioni e un'illustrazione in Quali sono le carenze dell'errore percentuale assoluta media (MAPE)? Quel thread considera il , ma anche altre misure di errore e contiene collegamenti ad altri thread correlati.


Alla fine, quale misura di errore utilizzare dipende in realtà dal costo dell'errore di previsione, ovvero quale tipo di errore è più doloroso. Senza esaminare le implicazioni effettive degli errori di previsione, qualsiasi discussione su "criteri migliori" è sostanzialmente insignificante.

Le misure di accuratezza delle previsioni erano un argomento importante nella comunità delle previsioni alcuni anni fa e continuano ad apparire di tanto in tanto. Un ottimo articolo da guardare è Hyndman & Koehler "Un altro sguardo alle misure di accuratezza delle previsioni" (2006).

Infine, un'alternativa è calcolare le densità predittive complete e valutarle usando adeguate .


Grazie per la risposta e il link. Non avevo familiarità con il termine "Errore di costo previsione". Sembra che si riferisca a situazioni in cui (ad esempio) un'azienda prevede quanti widget venderà e forse il dolore che subiscono per sopravvalutare è il doppio di quello che soffrono per sottovalutare. Tuttavia, sto pensando principalmente a un contesto in cui i laici fanno previsioni senza costi di errore di previsione prontamente evidenti (ad es. "Quanti tweet realizzeranno Bill Gates nei prossimi 5 mesi?"). In una situazione del genere la mia scelta della misura di errore sarà arbitraria?
user1205901 - Ripristina Monica il

3
Il costo dell'errore di previsione è stato discusso nella rivista Foresight orientata ai professionisti : forecasters.org/foresight Molto raccomandato! (Informativa completa: sono un editore associato.) Sono d'accordo sul fatto che il CoFE non sia facilmente evidente nel tuo esempio, ma poi mi chiederei quanti sforzi dovresti davvero spendere per ottimizzare la tua misura di errore ...
Stephan Kolassa,

4

I vantaggi dell'utilizzo di MAE anziché MSE sono spiegati in Davydenko e Fildes (2016) , vedere la Sezione 3.1:

... Alcuni autori (ad esempio, Zellner, 1986) sostengono che il criterio con cui valutiamo le previsioni dovrebbe corrispondere al criterio con cui ottimizziamo le previsioni. In altre parole, se ottimizziamo le stime utilizzando una determinata funzione di perdita, dobbiamo usare la stessa funzione di perdita per la valutazione empirica al fine di scoprire quale modello è migliore.

Adattare un modello statistico di solito fornisce previsioni ottimali in caso di perdita quadratica. Questo, ad esempio, accade quando si inserisce una regressione lineare. Se la nostra previsione di densità dalla modellistica statistica è simmetrica, anche le previsioni ottimali sotto perdita quadratica sono ottimali sotto perdita lineare. Ma se stabilizziamo la varianza mediante trasformazioni dei tronchi e poi trasformiamo indietro le previsioni per esponenziazione, otteniamo previsioni ottimali solo in caso di perdita lineare. Se utilizziamo un'altra perdita, dobbiamo prima ottenere la previsione della densità utilizzando un modello statistico, quindi adattare la nostra stima data la nostra funzione di perdita specifica (vedere esempi di come farlo in Goodwin, 2000).

Supponiamo di voler confrontare empiricamente due metodi e scoprire quale metodo è migliore in termini di perdita lineare simmetrica (poiché questo tipo di perdita è comunemente usato nella modellazione). Se abbiamo solo una serie temporale, sembra naturale usare un errore assoluto medio (MAE). Inoltre, MAE è attraente in quanto è semplice da capire e calcolare (Hyndman, 2006) ...

Riferimenti

Davydenko, A., & Fildes, R. (2016). Misure di errore previsionali: revisione critica e raccomandazioni pratiche. Nelle previsioni aziendali: problemi pratici e soluzioni. John Wiley & Sons


Potresti dare una citazione completa al giornale, piuttosto che solo "Davydenko e Fildes, 2016"?
Silverfish,

Ci piace che le nostre risposte siano autonome, in modo che non siano influenzate negativamente dai collegamenti che si interrompono. Pensi di poter ampliare in qualche modo la tua risposta, per sintetizzare quelli che pensavi fossero i punti chiave del suo contenuto che sono rilevanti per questa domanda? Altrimenti, questo è davvero più adatto per un commento che per una risposta. (Apprezzo che non hai ancora abbastanza reputazione per pubblicare commenti, ma possiamo convertirlo in uno per te.)
Silverfish

1
Grazie per la tua risposta! Ecco cosa dice Davydenko e Fildes, 2016: il montaggio di un modello statistico di solito fornisce previsioni ottimali in caso di perdita quadratica. Questo, ad esempio, accade quando si inserisce una regressione lineare. Se la nostra previsione di densità dalla modellistica statistica è simmetrica, anche le previsioni ottimali sotto perdita quadratica sono ottimali sotto perdita lineare. Ma se stabilizziamo la varianza mediante trasformazioni dei tronchi e poi trasformiamo indietro le previsioni mediante esponenziazione, otteniamo previsioni ottimali solo in caso di perdita lineare.
Turbofly,

1
Grazie! Puoi modificare queste informazioni nella tua risposta (il pulsante "modifica" si trova nella parte inferiore del tuo post).
Silverfish,

Molte grazie. Ho fatto un po 'di formattazione e ho dato una citazione completa.
Silverfish,

3

RMSE=MSEMAE=MAD

In realtà,

MAERMSEnMAE

  • e
    RMSE=1nei2=1nne2=e=MAE
  • e
    MAE=en
    RMSE=1nei2=1ne2=1n(nMAE)2=nMAE

MAERMSEMAEyiy^i[0,1]

  • ei1
    MAE=nwrongn
    RMSE=1nei2=1nnwrong=MAE
    nwrong, se scegli l'iscrizione alla classe parziale / frazionaria e quindi anche per eio[0,1], le cose diventano un po 'più complicate perché devi tenere conto del fatto che l'errore massimo possibile può essere inferiore a 1 e potresti avere un "residuo" eio<1 che entrambi abbassano ulteriormente il limite superiore).

Se RMSE è vicino al MAE, ci sono molte piccole deviazioni, se è vicino al limite superiore, ci sono poche previsioni grossolanamente sbagliate.


intendi sqrt (n) * MAE o sqrt (n * MAE) come limite superiore?
Chris,

1
@Chris: è sqrt (n) * MAE, vedi la mia modifica.
cbeleites supporta Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.