Interpretazione dell'errore assoluto scalato medio (MASE)


22

L'errore assoluto scalato medio (MASE) è una misura dell'accuratezza della previsione proposta da Koehler & Hyndman (2006) .

MUNSE=MUNEMUNEion-Sun'mple,nun'iove

dove è l'errore assoluto medio prodotto dalla previsione effettiva; mentre è l'errore assoluto medio prodotto da una previsione ingenua (ad es. previsione di nessuna modifica per una serie temporale integrata ), calcolata sui dati del campione.M A E i n - s a m p l e ,MUNE
I(1)MUNEion-Sun'mple,nun'ioveio(1)

(Consulta il documento Koehler & Hyndman (2006) per una definizione e una formula precise.)

MUNSE>1 implica che la previsione effettiva fa peggio del campione rispetto a una previsione ingenua del campione, in termini di errore assoluto medio. Pertanto, se l'errore assoluto medio è la misura rilevante dell'accuratezza della previsione (che dipende dal problema attuale ), suggerisce che la previsione effettiva dovrebbe essere scartata a favore di una previsione ingenua se ci aspettiamo che i dati fuori campione essere abbastanza simile ai dati nel campione (perché sappiamo solo quanto bene sia stata eseguita una previsione ingenua nel campione, non nel campione).MUNSE>1

Domanda:

MUNSE=1.38 stato utilizzato come punto di riferimento in una competizione di previsione proposta in questo post sul blog di Hyndsight . Un benchmark ovvio non avrebbe dovuto essere ?MUNSE=1

Naturalmente, questa domanda non è specifica per la particolare competizione di previsione. Vorrei un aiuto per capirlo in un contesto più generale.

La mia ipotesi:

L'unica spiegazione ragionevole che vedo è che ci si aspettava che una previsione ingenua avrebbe fatto molto peggio del campione rispetto al campione, ad esempio a causa di un cambiamento strutturale. Quindi potrebbe essere stato troppo impegnativo da raggiungere.MUNSE<1

Riferimenti:


Nel suo post sul blog, Rob nota da dove proviene questo benchmark: "Queste soglie sono i metodi più performanti nell'analisi di questi dati descritti in Athanasopoulos et al (2010)". Hai visto il documento di Athanosopoulos?
S. Kolassa - Ripristina Monica il

Sono un po 'perplesso dalla "tua ipotesi": un cambiamento strutturale significherebbe che la previsione sofisticata si baserebbe su dati passati parzialmente irrilevanti, anzi. Ma il modo in cui un'interruzione strutturale influirebbe su una previsione di "nessun cambiamento" dipende dall'interruzione. Se ad esempio stiamo osservando una camminata casuale con deriva e la rottura strutturale significa che la deriva, il termine costante, è appena diminuito , allora la previsione di "non-cambiamento" funzionerà meglio dopo l'interruzione, rispetto a prima.
Alecos Papadopoulos,

@AlecosPapadopoulos: hai ragione. Tuttavia, intendevo che i dati fuori campione erano piuttosto diversi dai dati in campione come condizione necessaria, ma non sufficiente per aspettarsi . Forse non mi sono espresso correttamente. MUNSE>>1
Richard Hardy,

@StephanKolassa: ho sfogliato il giornale e non ho trovato una buona spiegazione. Forse dovrei leggerlo più attentamente. Ma le mie domande dovrebbero essere più generali di così. Non mi interessa particolarmente quell'istanza, l'ho appena presentata come esempio. Sto cercando intuizione su . MUNSE
Richard Hardy,

Risposte:


15

Nel post sul blog collegato , Rob Hyndman chiede di partecipare a una competizione di previsioni turistiche. In sostanza, il post sul blog serve a richiamare l'attenzione sull'articolo IJF pertinente , una versione non controllata di cui è collegata nel post sul blog.

I benchmark a cui fai riferimento - 1,38 per mensile, 1,43 per trimestrale e 2,28 per dati annuali - apparentemente sono arrivati ​​a quanto segue. Gli autori (tutti sono esperti di previsioni e molto attivi nell'IIF - qui non sono venditori di olio di serpente) sono abbastanza capaci di applicare algoritmi di previsione standard o software di previsione e probabilmente non sono interessati alla semplice presentazione di ARIMA. Quindi sono andati e hanno applicato alcuni metodi standard ai loro dati. Affinché la proposta vincente sia invitata per un documento nell'IJF , chiedono che migliori sul meglio di questi metodi standard, come misurato dal MASE.

Quindi la tua domanda si riduce essenzialmente a:

Dato che un MASE di 1 corrisponde a una previsione che è fuori campione (buona per MAD) come l'ingenua previsione di camminata casuale nel campione, perché i metodi di previsione standard come ARIMA possono migliorare su 1,38 per i dati mensili?

Qui, il 1.38 MASE proviene dalla tabella 4 nella versione non controllata. È l'ASE medio oltre le previsioni anticipate di 1-24 mesi di ARIMA. Gli altri metodi standard, come ForecastPro, ETS ecc., Hanno prestazioni ancora peggiori.

E qui, la risposta diventa difficile . È sempre molto problematico giudicare l'accuratezza delle previsioni senza considerare i dati. Una possibilità che mi viene in mente in questo caso particolare potrebbe essere quella di accelerare le tendenze. Supponiamo di provare a prevedereexp(t)con metodi standard. Nessuno di questi catturerà la tendenza in accelerazione (e di solito è una buona cosa - se l'algoritmo di previsione modella spesso una tendenza in accelerazione, probabilmente supererai di gran lunga il tuo segno) e produrranno un MASE superiore a 1. Altre spiegazioni potrebbero , come dici tu, essere diverse interruzioni strutturali, ad esempio, cambiamenti di livello o influenze esterne come SARS o 9/11, che non verrebbero catturati dai modelli di riferimento non causali, ma che potrebbero essere modellati da metodi di previsione turistica dedicati (anche se usando i futuri causali in un campione di controllo sono una specie di imbroglio).

Quindi direi che probabilmente non puoi dire molto a riguardo senza guardare i dati stessi. Sono disponibili su Kaggle. La tua scommessa migliore è probabilmente quella di prendere queste serie 518, resistere negli ultimi 24 mesi, adattarsi alla serie ARIMA, calcolare MASE, scavare le dieci o venti serie peggiori di previsioni MASE, prendere una grande tazza di caffè, guardare queste serie e provare per capire cosa rende i modelli ARIMA così difficili da prevederli.

EDIT: un altro punto che appare evidente dopo il fatto, ma mi ci sono voluti cinque giorni per vedere - ricorda che il denominatore del MASE è la previsione del cammino casuale nel campione di un passo avanti , mentre il numeratore è la media del 1-24- previsioni in avanti . Non sorprende che le previsioni peggiorino con l'aumentare degli orizzonti, quindi questo potrebbe essere un altro motivo per un MASE di 1,38. Si noti che la previsione Naive stagionale è stata inclusa anche nel benchmark e aveva un MASE ancora più elevato.


Bella risposta! Grazie per il breve riassunto del documento originale (servirà come utile scorciatoia per tutti i non iniziati). Sembra che l'idea principale dietro la tua risposta non sia in conflitto con la mia ipotesi (ma piuttosto la estende); c'è qualcosa di speciale fuori dal campione che l'errore di previsione ingenuo nel campione sottovaluta.
Richard Hardy,

2

Non una risposta, ma una trama che segue la chiamata di Stephan Kolassa a "guardare queste serie".
Kaggle Tourism1 ha 518 serie storiche annuali, per le quali vogliamo prevedere gli ultimi 4 valori:

inserisci qui la descrizione dell'immagine

5th
Error4(y)14Σlun'St 4|yio-y-5|
Error4(y)length(y)

Ovviamente, serie molto brevi - 12 11 7 7 7 ... nella riga superiore - sono difficili da prevedere: nessuna sorpresa.
(Athanasopoulos, Hyndman, Song e Wu, The Tourism Forecasting Competition (2011, 23p) hanno usato 112 delle 518 serie annuali, ma non vedo quali.)

Ci sono altre, più recenti raccolte di serie storiche dal 2010, che potrebbero valere la pena di essere esaminate?


Grazie! Non conosco la risposta alla tua ultima domanda.
Richard Hardy,

1
@denis: ho appena visto la tua domanda: potresti voler chiedere dati su OpenData.SE .
S. Kolassa - Ripristina Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.