Come compilare i dati mancanti nelle serie temporali?


16

Ho una vasta serie di dati sull'inquinamento che sono stati registrati ogni 10 minuti nel corso di 2 anni, tuttavia ci sono una serie di lacune nei dati (compresi alcuni che vanno per alcune settimane alla volta).

I dati sembrano essere abbastanza stagionali e c'è una grande variazione durante il giorno rispetto alla notte in cui i valori non hanno molte variazioni e i punti di dati sono più bassi.

Ho preso in considerazione l'idea di adattare un modello di loess ai sottoinsiemi diurni e notturni separatamente (poiché esiste un'evidente differenza tra loro) e quindi prevedere i valori dei dati mancanti e riempire questi punti.

Mi chiedevo se questo è un modo adatto per affrontare questo problema e anche se è necessario aggiungere una variazione locale ai punti previsti.

Risposte:


21

La risposta dipenderà dal design del tuo studio (ad es. Serie temporali trasversali? Serie temporali di coorte, serie temporali di coorti seriali?). Honaker e King hanno sviluppato un approccio utile per le serie temporali trasversali (forse utile per le serie temporali di coorti seriali, a seconda delle ipotesi), incluso il pacchetto R Amelia II per imputare tali dati. Nel frattempo Spratt & Co. hanno descritto un approccio diverso che può essere utilizzato in alcuni progetti di serie storiche di coorte, ma è scarso sulle implementazioni del software.

Un design di serie temporali in sezione trasversale (noto anche come design dello studio del panel) è quello in cui una (e) popolazione (e) viene (ripetutamente) campionata (ad es. Ogni anno), usando lo stesso protocollo di studio (ad es. Stesse variabili, strumenti, ecc. ). Se la strategia di campionamento è rappresentativa, questi tipi di dati producono un quadro annuale (una misurazione per partecipante o soggetto) delle distribuzioni di tali variabili per ciascuna popolazione nello studio.

Un design di serie temporali di coorte (noto anche come design di studio di coorti ripetute, design di studio longitudinale, talvolta chiamato anche design di un panel panel) è uno in cui le singole unità di analisi vengono campionate una volta e seguite per un lungo periodo di tempo. Gli individui possono essere campionati in modo rappresentativo da una o più popolazioni. Tuttavia, un campione rappresentativo di serie temporali di coorte diventerà un rappresentante sempre più povero della popolazione target (almeno nelle popolazioni umane) col passare del tempo, a causa delle persone che nascono o invecchiano nella popolazione target e ne muoiono o invecchiano, insieme con immigrazione ed emigrazione.

Un design di serie temporali di coorti seriali (ovvero coorti ripetuti, multi- e multipli, o design dello studio del pannello) è uno in cui una (e) popolazione (e) viene (ripetutamente) campionata (ad esempio, ogni anno), usando lo stesso protocollo di studio ( ad esempio, stesse variabili, strumenti, ecc.), che misura le singole unità di analisi all'interno di una popolazione in due momenti durante il periodo (ad esempio, durante l'anno) al fine di creare misure del tasso di variazione. Se la strategia di campionamento è rappresentativa, questi tipi di dati producono un quadro annuale dei tassi di variazione di tali variabili per ciascuna popolazione dello studio.

Riferimenti
Honaker, J. e King, G. (2010). Cosa fare con i valori mancanti nei dati della sezione trasversale delle serie temporali . American Journal of Political Science , 54 (2): 561–581.

Spratt, M., Carpenter, J., Sterne, JAC, Carlin, JB, Heron, J., Henderson, J., and Tilling, K. (2010). Strategie per l'imputazione multipla negli studi longitudinali . American Journal of Epidemiology , 172 (4): 478–4876.


Grazie per la risposta. Mi stavo solo chiedendo se potevi definire i diversi tipi di serie temporali (coorte, sezioni trasversali ecc.) Dato che sono relativamente nuovo a questo tipo di studio e non ho mai incontrato questi termini prima.
Jamesm131,

@ Jamesm131 Vedi la mia risposta modificata.
Alexis,

7

puoi usare il pacchetto imputeTS in R. Credo che i dati su cui stai lavorando siano serie temporali uni-variate. Il pacchetto imputeTS è specializzato nell'imputazione (univariata) delle serie temporali. Offre diverse implementazioni dell'algoritmo di imputazione. Oltre agli algoritmi di imputazione, il pacchetto fornisce anche funzioni di stampa e stampa di statistiche di dati mancanti. Bene, ti consiglio di esaminare i modelli dello spazio degli stati per i valori mancanti . Questo pacchetto dovrebbe aiutarti con la tua analisi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.