Costruire una serie temporale che includa più osservazioni per ogni data


11

Sto cercando di applicare una serie temporale ai dati campionati trimestrali (biomassa animale) per un periodo di 10 anni con 3 ripetizioni per trimestre. Quindi 40 date ma 120 osservazioni totali.

Ho letto fino a SARIMA'a in Shumway e Stoffer's Time Series Analysis e le sue applicazioni, oltre a scremato Woodward, et. al.'s Applied Time Series Analysis, e la mia comprensione è che ogni modello si basa su una singola osservazione in ogni punto della serie temporale.

DOMANDA: Come posso includere la variazione in ciascuna osservazione nel mio modello? Potrei costruire una serie sulla media, ma perderei la variazione ad ogni osservazione e penso che sia fondamentale per la mia comprensione di ciò che sta accadendo.


SARIMA può essere esteso al caso multivariato, che potrebbe essere appropriato per te. La parola chiave in questo caso è VAR. Ciò significa che si osserva un vettore di numeri anziché un numero per ogni periodo di tempo.
mpiktas,

Risposte:


4

A seconda di cosa intendi esattamente con "3 ripetizioni per trimestre", un modello di dati panel ( wikipedia ) può avere senso. Ciò significherebbe che stai eseguendo tre misurazioni ogni trimestre, una per ognuna delle tre fonti distinte che rimangono le stesse nel tempo. I tuoi dati sarebbero simili a:

obs quarter value
  A       1   2.2 
  A       2   2.3 
  A       3   2.4 
  B       1   1.8 
  B       2   1.7 
  B       3   1.6 
  C       1   3.3 
  C       2   3.4 
  C       3   3.5 

Se questo è ciò che stai osservando, esistono diversi modelli per lavorare con i dati del pannello. Ecco una presentazione decente che copre alcune delle R di base che useresti per guardare i dati del pannello. Questo documento approfondisce un po 'di più, anche se dal punto di vista econometrico.

Tuttavia, se i tuoi dati non si adattano perfettamente alle metodologie dei dati del panel, ci sono altri strumenti disponibili per i "dati aggregati". Una definizione da questo documento (pdf) :

La messa in comune dei dati implica un'analisi statistica che utilizza più fonti di dati relative a più popolazioni. Comprende media, confronti e interpretazioni comuni delle informazioni. Diversi scenari e problemi sorgono anche a seconda che le origini dati e le popolazioni coinvolte siano uguali / simili o diverse.

Come puoi vedere, da quella definizione, le tecniche che utilizzerai dipenderanno da cosa esattamente ti aspetti di apprendere dai tuoi dati.

Se dovessi suggerire un punto da cui iniziare, supponendo che le tue tre estrazioni per ogni trimestre siano coerenti nel tempo, direi iniziare utilizzando uno stimatore di effetti fissi (noto anche come stimatore interno) con un modello di dati del pannello del tuo dati.

Per il mio esempio sopra, il codice sarebbe simile a:

> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5), 
                     quarter=c(1,2,3,1,2,3,1,2,3), 
                     obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)

Il che ci dà il seguente risultato:

Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)

Residuals:
         1          2          3          4          5          6          7 
-1.667e-02 -8.940e-17  1.667e-02  8.333e-02 -1.000e-01  1.667e-02 -1.667e-02 
         8          9 
 1.162e-16  1.667e-02 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.13333    0.06055  35.231 3.47e-07 ***
quarter       0.08333    0.02472   3.371 0.019868 *  
factor(obs)B -0.50000    0.04944 -10.113 0.000162 ***
factor(obs)C  1.10000    0.04944  22.249 3.41e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928 
F-statistic: 369.2 on 3 and 5 DF,  p-value: 2.753e-06 

Qui possiamo vedere chiaramente l'effetto del tempo nel coefficiente sulla variabile del quarto, così come l'effetto di essere nel gruppo B, o nel gruppo C (al contrario del gruppo A).

Spero che questo ti indichi da qualche parte nella giusta direzione.


3

Penso che sia interessante Il mio suggerimento sarebbe di fare una media dei tre punti dati per far sì che le serie storiche si adattassero. Come fai notare se lo fai ignorando di aver preso la media di tre osservazioni, stai gettando via informazioni. Ma per ogni punto temporale puoi sommare le deviazioni al quadrato dalla media. Unisci le somme di quadrati in tutti i periodi di tempo e dividi per n-1 dove n è il numero totale di punti utilizzati nel calcolo. Se si dispone di un modello con struttura delle serie temporali (ad es. Tendenze, componente stagionale, struttura di dipendenza AR), questo calcolo potrebbe essere una stima indipendente e imparziale della varianza del termine di errore nel modello.


1
+1 per un'idea utile che può essere facilmente eseguita e teoricamente valida. Una piccola correzione, tuttavia: saranno osservati valori in periodi di tempo. Una stima imparziale della varianza dividerà la somma di tutte le deviazioni quadrate per , piuttosto che o (una delle due è sostanzialmente diversa ed è sbagliata). Probabilmente si dovrebbero tracciare anche le stime della varianza individuale (una per periodo di tempo) nel tempo, per valutare se è legittimo raggrupparle tutte in questo modo. 3nn3n2nn13n1
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.