Il metodo migliore per brevi serie temporali


35

Ho una domanda relativa alla modellazione di serie storiche brevi. Non è una questione se modellarli , ma come. Quale metodo consiglieresti per modellare (molto) serie temporali brevi (diciamo di lunghezza )? Per "migliore" intendo qui il più robusto, che è il meno soggetto a errori a causa del numero limitato di osservazioni. Con brevi serie singole osservazioni potrebbero influenzare la previsione, quindi il metodo dovrebbe fornire una stima prudente degli errori e della possibile variabilità connessa alla previsione. In genere sono interessato a serie storiche univariate, ma sarebbe anche interessante conoscere altri metodi.T20


Qual è l'unità di tempo? Puoi pubblicare i dati?
Dimitriy V. Masterov,

8
Qualunque ipotesi tu faccia - riguardo a stagionalità, stazionarietà, ecc. - una serie temporale breve ti darà la possibilità di rilevare solo le violazioni più flagranti; quindi i presupposti dovrebbero essere ben fondati nella conoscenza del dominio. Devi modellare o semplicemente fare previsioni? La competizione M3 ha confrontato vari metodi di previsione "automatici" su serie di una varietà di domini, alcuni dei quali brevi come 20.
Scortchi - Ripristina Monica

5
+1 al commento di @ Scortchi. Per inciso, su 3.003 serie M3 (disponibile nel Mcomppacchetto per R), 504 hanno 20 o meno osservazioni, in particolare il 55% delle serie annuali. Quindi puoi cercare la pubblicazione originale e vedere cosa ha funzionato bene per i dati annuali. O anche scavare attraverso le previsioni originali presentate al concorso M3, che sono disponibili nel Mcomppacchetto (elenco M3Forecast).
S. Kolassa - Ripristina Monica il

Ciao, non aggiungerò nulla alla risposta, ma condividerò semplicemente qualcosa sulla domanda che spero possa aiutare gli altri a capire il problema qui: quando dici uno robusto, questo è il meno incline agli errori a causa del fatto di limitato numero di osservazioni . Credo che la robustezza sia un concetto importante nelle statistiche e qui è cruciale poiché avere così pochi dati che qualsiasi adattamento alla modellazione dipenderà fortemente dalle ipotesi del modello stesso o dei valori anomali. Con la solidità rendi questi vincoli meno forti, non permettendo che il presupposto limiti i tuoi risultati. Spero che aiuti.
Tommaso Guerrini,

2
I metodi robusti di @TommasoGuerrini non fanno meno ipotesi, ma fanno ipotesi diverse.
Tim

Risposte:


31

È molto comune che metodi di previsione estremamente semplici come "prevedere la media storica" ​​superino i metodi più complessi. Ciò è ancora più probabile per le serie temporali brevi. Sì, in linea di principio è possibile adattare un ARIMA o un modello ancora più complesso a 20 o meno osservazioni, ma sarà piuttosto probabile che si adattino troppo e si ottengano previsioni molto negative.

Quindi: inizia con un semplice benchmark, ad es.

  • la media storica
  • la mediana storica per una maggiore robustezza
  • la passeggiata casuale (prevedere l'ultima osservazione fuori)

Valutale sulla base di dati fuori campione. Confronta qualsiasi modello più complesso con questi parametri di riferimento. Potresti essere sorpreso nel vedere quanto sia difficile superare questi semplici metodi. Inoltre, confronta la solidità di metodi diversi con questi metodi semplici, ad esempio valutando non solo la media accuratezza fuori campione, ma anche la varianza dell'errore , utilizzando la tua misura di errore preferita .

Sì, come scrive Rob Hyndman nel suo post a cui Aleksandr si collega , i test fuori campione sono di per sé un problema per le serie brevi, ma in realtà non esiste una buona alternativa. ( Non utilizzare l'adattamento nel campione, che non è una guida alla precisione delle previsioni .) L'AIC non ti aiuterà con la mediana e la camminata casuale. Tuttavia, è possibile utilizzare la convalida incrociata di serie temporali , che AIC approssima, comunque.


Ho appena scoperto la tua risposta (+1). Ho fatto un altro commento, nel caso in cui tu sia interessato e desideri chiarire.
Aleksandr Blekh,

17

Sto di nuovo usando una domanda come opportunità per saperne di più serie temporali - uno dei (molti) argomenti di mio interesse. Dopo una breve ricerca, mi sembra che esistano diversi approcci al problema della modellazione di serie temporali brevi.

Il primo approccio consiste nell'utilizzare modelli di serie temporali standard / lineari (AR, MA, ARMA, ecc.), Ma prestare attenzione a determinati parametri, come descritto in questo post [1] di Rob Hyndman, che non ha bisogno di presentazioni in serie storiche e mondo delle previsioni. Il secondo approccio, a cui fa riferimento la maggior parte della letteratura correlata che ho visto, suggerisce di utilizzare modelli di serie temporali non lineari , in particolare i modelli di soglia [2], che includono il modello autoregressivo di soglia (TAR) , il TAR auto-uscente ( SETAR) , modello a media mobile autoregressiva di soglia (TARMA) e modello TARMAX , che estende TAR modello di serie temporali esogene. Panoramiche eccellentidei modelli di serie temporali non lineari, compresi i modelli di soglia, sono disponibili in questo documento [3] e questo documento [4] sono disponibili .

Infine, un altro documento di ricerca correlato a IMHO [5] descrive un approccio interessante, che si basa sulla rappresentazione Volterra-Weiner di sistemi non lineari - vedere questo [6] e questo [7]. Si ritiene che questo approccio sia superiore ad altre tecniche nel contesto di serie temporali brevi e rumorose .

Riferimenti

  1. Hyndman, R. (4 marzo 2014). Adattamento di modelli a serie temporali brevi.[Post sul blog]. Estratto da http://robjhyndman.com/hyndsight/short-time-series
  2. Pennsylvania State University. (2015). Modelli di soglia. [Materiale del corso online]. STAT 510, Analisi delle serie storiche applicate.Estratto da https://onlinecourses.science.psu.edu/stat510/node/82
  3. Zivot, E. (2006). Modelli di serie temporali non lineari. [Appunti della lezione]. ECON 584, Econometrics di serie storiche. Washington University. Recuperato da http://faculty.washington.edu/ezivot/econ584/notes/nonlinear.pdf
  4. Chen, CWS, So, MKP e Liu, F.-C. (2011). Una revisione dei modelli di serie temporali soglia in finanza. Statistica e sua interfaccia, 4 , 167–181. Estratto da http://intlpress.com/site/pub/files/_fulltext/journals/sii/2011/0004/0002/SII-2011-0004-0002-a012.pdf
  5. Barahona, M., & Poon, C.-S. (1996). Rilevamento di dinamiche non lineari di serie temporali brevi e rumorose. Natura, 381 , 215-217. Estratto da http://www.bg.ic.ac.uk/research/m.barahona/nonlin_detec_nature.PDF
  6. Franz, MO (2011). Serie Volterra e Wiener. Scholarpedia, 6 (10): 11307. Recuperato da http://www.scholarpedia.org/article/Volterra_and_Wiener_series
  7. Franz, MO, & Scholkopf, B. (nd). Una visione unificante della teoria di Wiener e Volterra e della regressione polinomiale del kernel. Estratto da http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/nc05_%5B0%5D.pdf

4
+1 Ti dispiacerebbe scrivere i riferimenti per questi articoli nella tua risposta? Recentemente abbiamo scoperto che molti collegamenti a documenti marciscono dopo un po ', rendendoli infine quasi inutili a meno che nel testo non siano menzionati anche autori, titoli, ecc.
whuber

2
@whuber: grazie. Nessun problema, aggiornerò la mia risposta con riferimenti questa sera.
Aleksandr Blekh,

2
+1 per il link al post di Rob Hyndman. (Tuttavia, sono tentato di -1 per i modelli complessi. Sarei estremamente cauto nell'utilizzare la soglia o qualsiasi altro metodo non lineare per le serie temporali su serie temporali con meno di 20 osservazioni. Sei quasi certo di sovralimentarti, il che va direttamente contro al requisito del PO di un metodo robusto .)
S. Kolassa - Ripristina Monica il

3
[2,3,4] non menzionano serie temporali brevi e guardano i grafici in [2]:> 120 osservazioni. [4] si concentra sulla finanza, dove hai enormemente più di 20 osservazioni. [5] scrive di "serie temporali brevi, in genere lunghe 1.000 punti" (p. 216). Non vedo alcun modo per adattarsi in modo affidabile e solido a un TAR o a un modello simile, o a uno dei più complessi a cui ti colleghi, con <20 osservazioni. (A proposito: faccio anche alcune statistiche inferenziali sul lato, e con meno di 20 osservazioni, non puoi davvero stimare più della media e un altro parametro.)
S. Kolassa - Ripristina Monica il

5
Prego ;-) Immagino che il "da asporto" sia molto "dipendente dal contesto": per le serie di letture di sensori o in finanza, 1000 punti dati sono "brevi" - ma nella gestione della catena di approvvigionamento, 20 osservazioni mensili sono quasi normali e "breve" inizierà solo con 12 o meno osservazioni.
S. Kolassa - Ripristina Monica il

11

T20

I seguenti metodi qualitativi funzionano bene nella pratica per dati molto brevi o assenti:

  • Previsioni composte
  • indagini
  • Metodo Delphi
  • Costruzione dello scenario
  • Previsioni per analogia
  • Parere esecutivo

Uno dei migliori metodi che conosco che funziona molto bene è l'uso di analogie strutturate (5 ° nella lista sopra) in cui cerchi prodotti simili / analoghi nella categoria che stai cercando di prevedere e li usi per prevedere previsioni a breve termine . Vedi questo articolo per esempi e il documento SAS su "come fare" usando ovviamente SAS. Una limitazione è che la previsione per analogie funzionerà solo se si hanno buone analogie, altrimenti si potrebbe fare affidamento sulla previsione del giudizio. Ecco un altro video del software Forecastpro su come utilizzare uno strumento come Forecastpro per fare previsioni per analogia. La scelta di un'analogia è più un'arte che una scienza e per selezionare prodotti / situazioni analoghe sono necessarie competenze di dominio.

Due risorse eccellenti per la previsione di nuovi o brevi prodotti:

  • Principio di previsione di Armstrong
  • Previsioni di nuovi prodotti di Kahn

Quello che segue è a scopo illustrativo. Ho appena finito di leggere Segnale e rumoredi Nate Silver, in quanto vi è un buon esempio di bolla e previsione del mercato immobiliare statunitense e giapponese (analogo al mercato statunitense). Nella tabella qui sotto se ti fermi in 10 punti dati e usi uno dei metodi di estrapolazione (smooting esponenziale / ets / arima ...) e vedi dove ti porta e dove finisce l'effettivo. Ancora una volta l'esempio che ho presentato è molto più complesso della semplice estrapolazione di tendenza. Questo è solo per evidenziare i rischi di estrapolazione delle tendenze usando punti dati limitati. Inoltre, se il tuo prodotto ha un modello stagionale, devi utilizzare una forma di situazione analoga per prevedere. Ho letto un articolo che ritengo nella ricerca del Journal of Business che se hai 13 settimane di vendite di prodotti farmaceutici, potresti prevedere i dati con maggiore precisione utilizzando prodotti analoghi.

inserisci qui la descrizione dell'immagine


Grazie per aver sottolineato un approccio diverso! E sono d'accordo, il libro di Nate Silvers è fantastico.
Tim

5

L'ipotesi che il numero di osservazioni sia critico è venuta da un commento diffuso di GEP Box in merito alla dimensione minima del campione per identificare un modello. Una risposta più sfumata per quanto mi riguarda è che il problema / qualità dell'identificazione del modello non si basa esclusivamente sulla dimensione del campione ma sul rapporto segnale-rumore che si trova nei dati. Se si dispone di un rapporto segnale / rumore elevato, sono necessarie meno osservazioni. Se hai bassi s / n, devi identificare più campioni. Se il tuo set di dati è mensile e hai 20 valori, non è possibile identificare empiricamente un modello stagionale TUTTAVIA se ritieni che i dati potrebbero essere stagionali, puoi avviare il processo di modellazione specificando un ar (12) e quindi fare la diagnostica del modello ( test di significatività) per ridurre o aumentare il modello strutturalmente carente


5

Con dati molto limitati, sarei più propenso ad adattare i dati usando le tecniche bayesiane.

La stazionarietà può essere un po 'complicata quando si ha a che fare con modelli di serie storiche bayesiane. Una scelta è quella di imporre vincoli sui parametri. Oppure non potresti. Questo va bene se vuoi solo guardare la distribuzione dei parametri. Tuttavia, se si desidera generare la previsione posteriore, è possibile che si verifichino molte previsioni che esplodono.

La documentazione di Stan fornisce alcuni esempi in cui pongono vincoli ai parametri dei modelli di serie storiche per garantire la stazionarietà. Questo è possibile per i modelli relativamente semplici che usano, ma può essere praticamente impossibile nei modelli di serie storiche più complicati. Se volessi davvero far rispettare la stazionarietà, potresti usare un algoritmo Metropolis-Hastings e scartare tutti i coefficienti che non sono corretti. Tuttavia, ciò richiede il calcolo di molti autovalori, che rallenteranno le cose.


0

Il problema, come saggiamente sottolineato, è il "sovradimensionamento" causato da procedure basate su elenchi fissi. Un modo intelligente è cercare di mantenere semplice l'equazione quando si dispone di una quantità trascurabile di dati. Ho scoperto dopo molte lune che se si utilizza semplicemente un modello AR (1) e si lascia il tasso di adattamento (il coefficiente ar) ai dati, le cose possono funzionare ragionevolmente bene. Ad esempio, se il coefficiente ar stimato è vicino allo zero, ciò significa che la media complessiva sarebbe appropriata. se il coefficiente è vicino a +1,0, ciò significa che l'ultimo valore (corretto per una costante è più appropriato. Se il coefficiente è vicino a -1,0, il negativo dell'ultimo valore (corretto per una costante) sarebbe la migliore previsione. Se il coefficiente è altrimenti significa che è appropriata una media ponderata del passato recente.

Questo è esattamente ciò con cui AUTOBOX inizia e quindi elimina le anomalie in quanto ottimizza il parametro stimato quando si incontra un "piccolo numero di osservazioni".

Questo è un esempio dell '"arte della previsione" quando un approccio basato sui dati puri potrebbe essere inapplicabile.

Di seguito è riportato un modello automatico sviluppato per i 12 punti dati senza preoccuparsi delle anomalie. inserisci qui la descrizione dell'immaginecon Actual / Fit e Forecast qui inserisci qui la descrizione dell'immaginee diagramma residuo quiinserisci qui la descrizione dell'immagine

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.