Relazione tra due serie storiche: ARIMA

12

Date le seguenti due serie temporali ( x , y ; vedi sotto), qual è il metodo migliore per modellare la relazione tra le tendenze a lungo termine in questi dati?

Entrambe le serie storiche hanno test significativi di Durbin-Watson se modellate in funzione del tempo e nessuna delle due è fissa (come intendo il termine, o questo significa che deve essere fissa solo nei residui?). Mi è stato detto che questo significa che dovrei prendere una differenza del primo ordine (almeno, forse anche del 2 ° ordine) di ogni serie temporale prima di poter modellarne una in funzione dell'altra, utilizzando essenzialmente un arima (1,1,0 ), arima (1,2,0) ecc.

Non capisco perché devi detrarre prima di poterli modellare. Capisco la necessità di modellare l'auto-correlazione, ma non capisco perché ci debba essere differenza. Per me, sembra che detrarre dalla differenziazione sia rimuovere i segnali primari (in questo caso le tendenze a lungo termine) nei dati a cui siamo interessati e lasciare il "rumore" ad alta frequenza (usando il termine rumore in modo approssimativo). In effetti, nelle simulazioni in cui creo una relazione quasi perfetta tra una serie temporale e l'altra, senza autocorrelazione, la differenziazione delle serie temporali mi dà risultati contrari alla finalità del rilevamento delle relazioni, ad es.

a = 1:50 + rnorm(50, sd = 0.01)
b = a + rnorm(50, sd = 1)
da = diff(a); db = diff(b)
summary(lmx <- lm(db ~ da))

In questo caso, b è fortemente correlato a a , ma b ha più rumore. Per me questo dimostra che la differenziazione non funziona in un caso ideale per rilevare relazioni tra segnali a bassa frequenza. Comprendo che la differenziazione è comunemente usata per l'analisi delle serie temporali, ma sembra essere più utile per determinare le relazioni tra segnali ad alta frequenza. Cosa mi sto perdendo?

Dati di esempio

df1 <- structure(list(
x = c(315.97, 316.91, 317.64, 318.45, 318.99, 319.62, 320.04, 321.38, 322.16, 323.04, 324.62, 325.68, 326.32, 327.45, 329.68, 330.18, 331.08, 332.05, 333.78, 335.41, 336.78, 338.68, 340.1, 341.44, 343.03, 344.58, 346.04, 347.39, 349.16, 351.56, 353.07, 354.35, 355.57, 356.38, 357.07, 358.82, 360.8, 362.59, 363.71, 366.65, 368.33, 369.52, 371.13, 373.22, 375.77, 377.49, 379.8, 381.9, 383.76, 385.59, 387.38, 389.78), 
y = c(0.0192, -0.0748, 0.0459, 0.0324, 0.0234, -0.3019, -0.2328, -0.1455, -0.0984, -0.2144, -0.1301, -0.0606, -0.2004, -0.2411, 0.1414, -0.2861, -0.0585, -0.3563, 0.0864, -0.0531, 0.0404, 0.1376, 0.3219, -0.0043, 0.3318, -0.0469, -0.0293, 0.1188, 0.2504, 0.3737, 0.2484, 0.4909, 0.3983, 0.0914, 0.1794, 0.3451, 0.5944, 0.2226, 0.5222, 0.8181, 0.5535, 0.4732, 0.6645, 0.7716, 0.7514, 0.6639, 0.8704, 0.8102, 0.9005, 0.6849, 0.7256, 0.878),
ti = 1:52), 
.Names = c("x", "y", "ti"), class = "data.frame", row.names = 110:161)

ddf<- data.frame(dy = diff(df1$y), dx = diff(df1$x))
ddf2<- data.frame(ddy = diff(ddf$dy), ddx = diff(ddf$dx))
ddf$ti<-1:length(ddf$dx); ddf2$year<-1:length(ddf2$ddx)
summary(lm0<-lm(y~x, data=df1))      #t = 15.0
summary(lm1<-lm(dy~dx, data=ddf))    #t = 2.6
summary(lm2<-lm(ddy~ddx, data=ddf2)) #t = 2.6

regression time-series arima

— Matt Albrecht
fonte

6

Matt, hai perfettamente ragione riguardo alle preoccupazioni che hai sollevato riguardo all'uso della struttura di differenziazione non necessaria. Al fine di identificare un modello appropriato inserisci qui la descrizione dell'immagine per i tuoi dati producendo una struttura significativa durante il rendering di un processo di errore gaussiano con un ACF diil processo di modellizzazione dell'identificazione della funzione di trasferimento richiede (in questo caso) un'adeguata differenziazione per creare serie surrogate stazionarie e quindi utilizzabili per IDENTIFICARE il negozio di relazioni. In questo i requisiti di differenziazione per IDENTIFICAZIONE erano il doppio di differenziazione per X e il singolo di differenziazione per Y. Inoltre, un filtro ARIMA per l'X doppiamente differenziato è risultato essere un AR (1). L'applicazione di questo filtro ARIMA (solo a scopo identificativo!) Ad entrambe le serie fisse ha prodotto la seguente struttura correlativa incrociata. inserisci qui la descrizione dell'immagine suggerendo una semplice relazione contemporanea. . Si noti che mentre le serie originali mostrano non stazionarietà, ciò non implica necessariamente che sia necessaria la differenziazione in un modello causale. Il modello finale e l'acf finale supportano questo inserisci qui la descrizione dell'immagine . Nel chiudere l'equazione finale a parte quella dei cambiamenti di livello identificati empiricamente (intercettare realmente i cambiamenti) è

 Y(t)=-4.78 + .192*X(t) - .177*X(t-1) which is NEARLY equal to 

 Y(t)=-4.78 + .192*[X(t)-X(t-1)] which means that changes in X effect the level of Y

Nota infine le caratteristiche del modello suggerito. inserisci qui la descrizione dell'immagine

la serie Level Shift (0,0,0,0,0,0,0,0,0,1,1, ........., 1) suggerisce che se non trattati i residui del modello presenterebbero un livello spostare entro o intorno al periodo di tempo 10 COSÌ un test dell'ipotesi di una media residua comune tra i primi 10 residui e gli ultimi 42 sarebbe significativo con alpha = .0002 basato su un "test t di -4,10". Si noti che l'inclusione di una costante garantisce che la media complessiva dei residui non differisce significativamente da zero MA questo non è necessariamente per tutti gli intervalli di tempo del sottoinsieme. Il seguente grafico mostra chiaramente questo (dato che ti è stato detto di guardare!). L'attuale / adatta / previsione è abbastanza illuminante inserisci qui la descrizione dell'immagine . Le statistiche sono come lampioni, alcuni le usano per appoggiarsi ad altre le usano per l'illuminazione.

— IrishStat
fonte

Grazie per l'analisi completa Dave. Solo così mi assicuro di aver capito, 2 è la variabile x così com'è, 3 è la variabile x con ritardo -1 e 4 è lo spostamento di livello? Non ci sono specifiche arima?

— Matt Albrecht,

@MattAlbrecht Y è il dipendente (la tua y con valori .0192, -. 0748 ...); X1 è la tua x con valori 315.97; X2 è una variabile fittizia 0,0,0,0,0,0,0,0,0,1,1,1, ... 1. La variabile X1 ha un effetto simultaneo e di ritardo con coefficienti [rispettivamente .192 e -.177]. L'equazione completa finale è

— IrishStat,

@MattAlbrecht Y è il dipendente (la tua y con valori .0192, -. 0748 ...); X1 è la tua x con valori 315.97; X2 è una variabile fittizia 0,0,0,0,0,0,0,0,0,1,1,1, ... 1. La variabile X1 ha sia un effetto contemporaneo che un ritardo con coefficienti [rispettivamente .192 e -.177]. L'equazione completa finale ha 4 coefficienti; una costante ; due coefficienti per la tua xe a

— IrishStat,

1

Non capisco neanche quel consiglio. La differenza rimuove le tendenze polinomiali. Se le serie sono simili a causa delle differenze, le differenze essenzialmente rimuovono quella relazione. lo faresti solo se ti aspetti che i componenti danneggiati siano correlati. Se lo stesso ordine di differenziazione porta ad acfs per i residui che sembrano provenire da un modello ARMA stazionario incluso il rumore bianco che potrebbe indicare che entrambe le serie hanno tendenze polinomiali uguali o simili.

— Michael R. Chernick
fonte

La differenza può anche essere usata per porre rimedio alla non stazionarietà quando non ci sono tendenze. L'uso non autorizzato può creare assurdità statistiche / econometriche come correttamente indicato.

— IrishStat,

1

Per come la capisco, la differenziazione fornisce risposte più chiare nella funzione di correlazione incrociata. Confronta ccf(df1$x,df1$y)e ccf(ddf$dx,ddf$dy).

— Kees
fonte

Concordo sul fatto che la correlazione incrociata mostra quale relazione esiste tra le serie differenziate, ma il mio punto è che queste serie sembrano essere correlate principalmente a causa delle tendenze che la differenziazione rimuove.

— Michael R. Chernick,

Non rispondi alla tua domanda lì? C'è una tendenza comune, siamo d'accordo su questo. La differenziazione consente di guardare oltre la tendenza: come sono le fluttuazioni attorno alla tendenza? In questo caso, la correlazione tra xey si verifica con il ritardo 0 e 8. L'effetto al ritardo 8 è anche visibile nell'autocorrelazione di ddf $ dy. Non lo sapresti senza differenziare.

— Kees,