Quali statistiche vengono conservate in aggregazione?


12

Se disponiamo di una serie temporale lunga e ad alta risoluzione, con un sacco di rumore, spesso ha senso aggregare i dati a una risoluzione inferiore (ad esempio valori giornalieri o mensili) per comprendere meglio cosa sta succedendo, rimuovendo efficacemente alcuni dei il rumore.

Ho visto almeno un articolo che applica quindi alcune statistiche ai dati aggregati, incluso un per una regressione lineare su una variabile separata. È valido? Avrei pensato che il processo di media avrebbe modificato un po 'il risultato, a causa del rumore ridotto.r2

In generale, alcune statistiche possono essere applicate ai dati aggregati delle serie temporali e altre no? Se sì, quali? Quelle che sono combinazioni lineari, forse?


Correlato, vedi l' errore ecologico .
Andy W,

1
per quanto riguarda il commento di @cbeleites, penso che ci sia una risposta teorica qui - un'espansione del tuo suggerimento di preservare le combinazioni lineari. Tuttavia, in termini di applicazione pratica, è molto difficile trarre una conclusione generale sulla validità di un approccio e dovrebbe esserci un esempio specifico.
Jonathan,

Risposte:


6

Penso che la domanda come nel titolo sia troppo ampia per essere risolta in modo utile, tanto più che probabilmente dipenderà sia dal metodo di aggregazione che dalla statistica in questione.

  • Questo si applica anche alla "media": cerchi di preservare la forma e l'intensità del segnale (es. Filtri Savitzky-Golay) o cerchi di preservare l'area sotto il segnale (es. Loess)?

  • Le statistiche relative al rumore sono ovviamente interessate: questo è generalmente lo scopo dell'aggregazione.

Ho visto almeno un documento che applica quindi alcune statistiche ai dati aggregati [...] È valido? Avrei pensato che il processo di media avrebbe modificato un po 'il risultato, a causa del rumore ridotto.

Questa modifica è probabilmente lo scopo dell'aggregazione.

In generale, sei autorizzato a fare molte cose con i tuoi dati, ma devi farlo

  • di 'quello che stai facendo (e preferibilmente anche il motivo per cui lo fai)
  • mostra la qualità del modello risultante (test con dati indipendenti)


n


5

YtXτm

Yt=α+βX¯t+ut,(1)

X¯t=1mh=0m1Xtmh.

tX30(t1)+1,...,X30t

Yt=α+βX¯t(w)+ut,(2)

con

Xt(w)=h=1m1whXtmh.

whwh=g(h,α)gα

wh=1m

In un'impostazione di non regressione ci sono risultati che mostrano che l'aggregazione può cambiare le proprietà delle serie temporali. Ad esempio, se si aggregano processi AR (1) con memoria a breve termine (la correlazione tra due osservazioni delle serie temporali si interrompe rapidamente quando si aumenta la distanza tra loro), è possibile ottenere un processo con memoria a lungo termine.

Quindi per riassumere la risposta è che la validità dell'applicazione delle statistiche sui dati aggregati è una domanda statistica. A seconda del modello è possibile costruire un'ipotesi che si tratti di un'applicazione valida o meno.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.