Insidie ​​nell'analisi delle serie storiche


46

Ho appena iniziato l'autoapprendimento nell'analisi delle serie storiche. Ho notato che ci sono un certo numero di potenziali insidie ​​che non sono applicabili alle statistiche generali. Quindi, basandoci su quali sono i peccati statistici comuni? , Mi piacerebbe chiedere:

Quali sono le insidie ​​comuni o i peccati statistici nell'analisi delle serie temporali?

Questo è inteso come wiki della comunità, un concetto per risposta e, per favore, nessuna ripetizione di insidie ​​statistiche più generali che sono (o dovrebbero essere) elencate in Cosa sono i peccati statistici comuni?

Risposte:


18

Estrapolare una regressione lineare in una serie temporale, in cui il tempo è una delle variabili indipendenti nella regressione. Una regressione lineare può approssimare una serie temporale su una scala temporale breve e può essere utile in un'analisi, ma estrapolare una linea retta è insensato. (Il tempo è infinito e in costante aumento.)

EDIT: In risposta alla domanda di nulla di "folle", la mia risposta potrebbe essere sbagliata, ma mi sembra che la maggior parte del fenomeno del mondo reale non aumenti o diminuisca continuamente per sempre. La maggior parte dei processi ha fattori limitanti: le persone smettono di crescere in altezza mentre invecchiano, le scorte non aumentano sempre, le popolazioni non possono diventare negative, non puoi riempire la tua casa con un miliardo di cuccioli, ecc. Tempo, a differenza della maggior parte delle variabili indipendenti che arrivano a mente, ha un supporto infinito, quindi puoi davvero immaginare il tuo modello lineare che prevede il prezzo delle azioni di Apple tra 10 anni perché sicuramente tra 10 anni esisteranno. (Considerando che non si estrapolerebbe una regressione in altezza per prevedere il peso dei maschi adulti alti 20 metri: non esistono e non esisteranno.)

Inoltre, le serie temporali hanno spesso componenti cicliche o pseudo-cicliche o componenti casuali della camminata. Come menziona IrishStat nella sua risposta, è necessario considerare la stagionalità (a volte le stagionalità su più scale temporali), i cambiamenti di livello (che faranno cose strane alle regressioni lineari che non ne tengono conto), ecc. Una regressione lineare che ignora i cicli adattarsi a breve termine, ma essere altamente fuorviante se lo estrapoli.

Certo, puoi metterti nei guai ogni volta che estrapoli, serie temporali o meno. Ma mi sembra che troppo spesso vediamo qualcuno lanciare una serie temporale (crimini, prezzi delle azioni, ecc.) In Excel, rilasciare una PREVISIONE o un LINEST su di essa e prevedere il futuro essenzialmente attraverso una linea retta, come se i prezzi delle azioni aumentassero continuamente (o declinare continuamente, anche diventando negativo).


Puoi espandere il motivo per cui è sciocco?
naught101,

1
+1 per i fantastici esempi. Sto calcolando esattamente quanti cuccioli posso adattare in casa in questo momento: D
nought101

3
Questa è una grande illustrazione del tuo punto: xkcd.com/605
Zach,

1
@naught Mark Twain ha fatto un ottimo lavoro mostrando, nel linguaggio più semplice possibile, perché "sciocco" è appropriato per l'estrapolazione lineare di una serie storica .
whuber

E questo: stats.stackexchange.com/a/13904/9007 ... Un punto simile è l'estrapolazione di una tendenza polinomiale (soprattutto di alto grado) o qualsiasi altro modello che non abbia rilevanza fisica. Ho scritto un post sul blog sul perché questa è una cattiva idea , quando insegnavo a me stesso di ottava.
naught101,

13

Prestare attenzione alla correlazione tra due serie temporali non stazionarie. (Non è inaspettato che abbiano un alto coefficiente di correlazione: ricerca su "correlazione senza senso" e "cointegrazione".)

Ad esempio, su google correl, i cani e i piercing all'orecchio hanno un coefficiente di correlazione di 0,84.

Per un'analisi più vecchia, vedi l'esplorazione di Yule del problema del 1926


Certo che non sempre. x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
naught101,

@Wayne Grazie mille per il documento Yule. Sto citando questo dal 1970 e non l'ho mai letto. È ben noto in alcuni ambienti, apparentemente piccoli,.
IrishStat,

7

Al livello più alto, Kolmogorov ha identificato l' indipendenza come un presupposto chiave nelle statistiche - senza ipotesi, molti risultati importanti nelle statistiche non sono veri, sia che si applichino a serie temporali o attività di analisi più generali.

I campioni successivi o vicini nella maggior parte dei segnali a tempo discreto del mondo reale non sono indipendenti, quindi è necessario prestare attenzione a scomporre un processo in un modello deterministico e una componente di rumore stocastica. Ciò nonostante, l'assunto di incremento indipendente nel calcolo stocastico classico è problematico: ricordare l'econ Nobel del 1997 e l'implosione del 1998 di LTCM che contava i vincitori tra i suoi principi (sebbene sia giusto, il gestore del fondo Merrywhether probabilmente è più responsabile di quanto non sia il quant metodi).


"analisi delle serie storiche" come campo di studio. Fondamentalmente intendo qualsiasi cosa che potrebbe far inciampare qualcuno di nuovo nello studio di serie temporali (di qualsiasi tipo e qualsiasi tipo di analisi). Non sto cercando risposte complete. Controlla la domanda a cui ho fatto riferimento nella mia domanda per avere un'idea di cosa sto cercando di fare qui.
naught101,

Intendevo quale tipo di analisi
alancalvitti,

Lo so. Penso che ti stia perdendo il punto della domanda. Sentiti libero di commentare i comuni ostacoli in qualsiasi analisi dei tipi , di qualsiasi tipo di problema con le serie temporali con cui hai esperienza. Basta tenerlo ai problemi specifici delle serie storiche.
naught101

Ehi, @alancalvitti, quell'esempio di economia sembra interessante. Conosci una buona descrizione che potremmo collegare da qui?
naught101

Ho modificato questa risposta per riportarla al punto principale presentato (per riportarla allo stile di un punto per risposta). Ciò significava rimuovere le cose sull'analisi spettrale. Forse si potrebbe dire qualcosa al riguardo in una risposta separata (anche se non sembra che si tratti di insidie, in particolare, probabilmente ci sono insidie ​​correlate all'analisi spettrale che possiamo notare qui). La discussione di cui sopra ora non ha senso, ma lo capisci, immagino: /
naught101

2

Essere troppo certi dei risultati del modello perché si utilizza una tecnica / modello (come OLS) che non tiene conto dell'autocorrelazione di una serie temporale.

Non ho un bel grafico, ma il libro "Introductory Time Series with R" (2009, Cowpertwait, et al) fornisce una spiegazione intuitiva ragionevole: se c'è un'autocorrelazione positiva, i valori sopra o sotto la media tenderanno a persistere ed essere raggruppati insieme in tempo. Ciò porta a una stima meno efficiente della media, il che significa che sono necessari più dati per stimare la media con la stessa accuratezza rispetto a se non ci fosse autocorrelazione zero. Hai effettivamente meno dati di quanto pensi di avere.

Il processo OLS (e quindi tu) presumi che non ci sia autocorrelazione, quindi stai anche assumendo che la stima della media sia più accurata (per la quantità di dati che hai) di quanto non sia in realtà. Quindi, finisci per essere più sicuro dei tuoi risultati di quanto dovresti essere.

(Questo può funzionare diversamente per l'autocorrelazione negativa: la tua stima della media è in realtà più efficiente di quanto non sarebbe altrimenti. Non ho nulla per dimostrarlo, ma suggerirei che la correlazione positiva è più comune nella maggior parte del mondo reale serie rispetto alla correlazione negativa.)


Un esempio qui sarebbe grandioso, non capisco fino in fondo la risposta così com'è
nulla di buono il

Grazie per la modifica di @Wayne, ma in un certo senso intendevo un esempio reale, preferibilmente con qualche visualizzazione. Ovviamente, anche altri possono aggiungerlo: è un wiki della community.
naught101

1
@ naught101: Ah. Due dei miei tre suggerimenti che ho fatto qui sono basati su ciò che ho imparato, ma non necessariamente abbastanza bene da fare un buon esempio. Proverò a cercarne uno sul web.
Wayne,

Sono solo dati simulati, ma la mia risposta a un'altra domanda ha del codice R con un modello adatto a OLS e quindi più appropriatamente tenendo conto dell'autocorrelazione - con valori p drammaticamente più alti. stats.stackexchange.com/questions/27254/…
Peter Ellis,

2

L'impatto di cambiamenti di livello, impulsi stagionali e andamenti dell'ora locale ... oltre agli impulsi di una volta. Le modifiche ai parametri nel tempo sono importanti per indagare / modello. Eventuali modifiche alla varianza degli errori nel tempo devono essere studiate. Come determinare come Y è influenzato dai valori contemporanei e ritardati di X. Come identificare se i valori futuri di X possono avere un impatto sui valori attuali di Y. Come scoprire un determinato giorno del mese ha un impatto. Come modellare i problemi di frequenza mista in cui i dati orari sono influenzati dai valori giornalieri?

nulla mi ha chiesto di fornire informazioni / esempi più specifici su cambiamenti di livello e impulsi. A tal fine, ora includo qualche altra discussione. Una serie che esibisce un ACF che suggerisce la non stazionarietà sta effettivamente producendo un "sintomo". Un rimedio suggerito è quello di "differenziare" i dati. Un rimedio trascurato è quello di "de-mean" i dati. Se una serie ha uno spostamento di livello "maggiore" nella media (ieintercept), l'acf di questa intera serie può essere facilmente interpretato erroneamente per suggerire differenze. Mostrerò un esempio di una serie che mostra uno spostamento di livello. Se avessi accentuato (allargato) la differenza tra i due significa che l'acf della serie totale suggerirebbe (in modo errato!) La necessità di differenza. Impulsi non trattati / Spostamenti di livello / Impulsi stagionali / Andamenti dell'ora locale gonfiano la varianza degli errori offuscando l'importanza della struttura del modello e sono la causa di stime errate dei parametri e scarse previsioni. Passiamo ora ad un esempio. thinserisci qui la descrizione dell'immagineis è un elenco dei 27 valori mensili. Questo è il grafico inserisci qui la descrizione dell'immagine. Ci sono quattro impulsi e 1 spostamento di livello E NESSUNA TENDENZA! inserisci qui la descrizione dell'immaginee inserisci qui la descrizione dell'immagine. I residui di questo modello suggeriscono un processo di rumore bianco inserisci qui la descrizione dell'immagine. Alcuni (quasi!) Pacchetti di previsioni commerciali e persino gratuiti offrono la seguente stupidità a seguito dell'assunzione di un modello di tendenza con fattori stagionali additivi inserisci qui la descrizione dell'immagine. Per concludere e parafrasare Mark Twain. "Ci sono sciocchezze e ci sono sciocchezze, ma la più insensata di tutte è un'assurdità statistica!" rispetto a un più ragionevole inserisci qui la descrizione dell'immagine. Spero che sia di aiuto !


1
Veramente? Queste sono tutte insidie e peccati ? (Rileggi la parte sottolineata della domanda!) Forse intendi il contrario di quello che hai scritto?
whuber

L'intento dei miei commenti era di sottolineare le insidie ​​di non intrattenere o considerare alcune di queste possibili strutture del mondo reale. Bisogna evitare ipotesi che non sono ragionevolmente validate, altrimenti si potrebbero ottenere risultati molto discutibili.
IrishStat,

3
Ho capito che era l'intento, ma nella sua forma attuale la tua risposta è facile da fraintendere. Ad esempio, è un peccato valutare "l'impatto" di "impulsi di una volta" o non è un peccato non farlo? Questo è sufficientemente vago che si potrebbe fare un buon caso per entrambe le interpretazioni! (Sì, è un peccato, perché gli impulsi di una volta potrebbero essere solo valori anomali ai quali non si desidera concedere un'influenza indebita e la loro contabilità potrebbe sovrastampare il modello; no, devono essere inclusi perché i loro effetti possono persistere per molto tempo e ignorando che potrebbe distorcere le stime di altri parametri.)
whuber

@whuber Se gli effetti di un impulso monouso persistono, questo potrebbe essere modellato come una sequenza di impulsi monouso in punti successivi. Non è elegante come potrebbe essere, ma efficace comunque. Come hai giustamente affermato, non vuoi avere valori erranti che distorcono le stime dei parametri della struttura ripetitiva, quindi è un "peccato" non trattare strutture deterministiche non specificate come impulsi, spostamenti di livello, impulsi stagionali e / o andamenti dell'ora locale.
IrishStat,

Penso che questa sarebbe una risposta davvero interessante se la prima frase (cambiamenti di livello e impulsi) fosse ampliata notevolmente (con alcuni esempi), e il resto fosse abbandonato. L'eteroschedasticità costituirebbe una buona risposta separata.
naught101

1

Definire la tendenza come crescita lineare nel tempo.

Sebbene alcune tendenze siano in qualche modo lineari (vedere il prezzo delle azioni Apple) e sebbene il grafico delle serie temporali assomigli a un grafico a linee in cui è possibile trovare una regressione lineare, la maggior parte delle tendenze non sono lineari.

Ci sono cambiamenti Step come cambiamenti quando qualcosa è accaduto in un determinato momento nel tempo che ha cambiato il comportamento della misura ( "Il ponte è crollato e da allora nessuna macchina lo supera ").

Un'altra tendenza popolare è "Buzz" - crescita esponenziale e un simile declino in seguito ( "La nostra campagna di marketing è stata un enorme successo, ma l'effetto è svanito dopo un paio di settimane" ).

Conoscere il modello giusto (regressione logistica, ecc.) Dell'andamento nelle serie temporali è cruciale nella capacità di rilevarlo nei dati delle serie temporali.


1

Oltre ad alcuni grandi punti che sono già stati menzionati, aggiungerei:

  1. Mancata individuazione di cicli lunghi o stagionalità - esaminando solo i dati per un periodo di tempo "non sufficientemente lungo"
  2. Impossibile valutare l'errore di previsione per periodi precedenti ( backtesting )
  3. Mancato rilevamento e gestione dei cambiamenti di regime

Questi problemi non sono legati ai metodi statistici coinvolti ma alla progettazione dello studio, ovvero quali dati includere e come valutare i risultati.

La parte difficile con il punto 1. è assicurarsi di aver osservato un periodo sufficiente di dati al fine di trarre conclusioni sul futuro. Durante la mia prima lezione sulle serie storiche, il professore ha disegnato una lunga curva del seno sulla lavagna e ha sottolineato che i cicli lunghi sembrano tendenze lineari se osservati su una finestra corta (abbastanza semplice, ma la lezione mi ha attaccato).

Il punto 2. è particolarmente rilevante se gli errori del modello hanno implicazioni pratiche. Tra gli altri campi, viene ampiamente utilizzato in ambito finanziario, ma direi che la valutazione degli errori di previsione nei periodi passati ha molto senso per tutti i modelli di serie temporali in cui i dati lo consentono.

Il punto 3. tocca nuovamente l'argomento di cui una parte dei dati passati è rappresentativa del futuro. Questo è un argomento complesso con una grande quantità di letteratura - chiamerò il mio preferito personale: Zucchini e MacDonald come esempio.


1

Evitare l'aliasing in serie temporali campionate. Se si analizzano i dati delle serie temporali che vengono campionati a intervalli regolari, la frequenza di campionamento deve essere il doppio della frequenza della componente di frequenza più alta nei dati che si stanno campionando. Questa è la teoria del campionamento di Nyquist e si applica all'audio digitale, ma anche a qualsiasi serie temporale campionata a intervalli regolari. Il modo per evitare l'aliasing è filtrare tutte le frequenze al di sopra della frequenza di nyquist, che è la metà della frequenza di campionamento. Ad esempio, per l'audio digitale, una frequenza di campionamento di 48 kHz richiederà un filtro passa-basso con un taglio inferiore a 24 kHz.
L'effetto dell'aliasing può essere visto quando le ruote sembrano girare all'indietro, a causa di un effetto strobiscopico in cui il tasso di strobo è vicino al tasso di rotazione della ruota. La velocità lenta osservata è un alias della velocità effettiva di rivoluzione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.