Come si sceglie un'unità di analisi (livello di aggregazione) in una serie temporale?


13

Se puoi misurare una serie temporale di osservazioni a qualsiasi livello di precisione nel tempo e il tuo obiettivo dello studio è identificare una relazione tra X e Y, c'è qualche giustificazione empirica per scegliere un livello specifico di aggregazione rispetto a un altro, o dovrebbe la scelta può essere semplicemente presa in base alla teoria e / o alle limitazioni pratiche?

Ho tre sotto-domande a questa principale:

  1. C'è qualche variazione non casuale in X o Y all'interno di un livello più ampio ragionamento sufficiente per scegliere un livello più piccolo di aggregazione (dove non casuale è un modello temporale delle osservazioni)?

  2. C'è qualche variazione nella relazione tra X e Y a un livello di aggregazione minore un ragionamento sufficiente per giustificare l'unità di analisi più piccola? Se una variazione è accettabile come si può decidere quanta variazione è troppo?

  3. Le persone possono citare argomenti che ritengono convincenti / ben definiti per un'unità di analisi rispetto a un'altra, sia per ragioni empiriche che per ragioni teoriche?

Sono ben consapevole del problema di unità di area modificabile nell'analisi spaziale ( Openshaw 1984 ). Non pretendo di essere esperto del materiale, ma tutto quello che devo pensare finora è che un'unità di analisi più piccola è sempre migliore, poiché è meno probabile commettere un errore ecologico ( Robinson 1950 ). Se uno ha un riferimento o una risposta direttamente pertinenti riguardanti le unità geografiche di aggregazione, apprezzerei anche quella risposta.

Risposte:


9

introduzione

Il mio interesse per l'argomento è ora di circa 7 anni e ha portato alla tesi di dottorato Serie temporali: aggregazione, disaggregazione e lunga memoria , in cui è stata prestata attenzione a una domanda specifica del problema di disaggregazione trasversale per lo schema AR (1).

Dati

Lavorando con diversi approcci all'aggregazione, la prima domanda che devi chiarire è quale tipo di dati hai a che fare (la mia ipotesi è spaziale, la più elettrizzante). In pratica potresti considerare l'aggregazione temporale (vedi Silvestrini, A. e Veridas, D. (2008) ), trasversale (ho adorato l'articolo di Granger, CWJ (1990) ) o sia il tempo che lo spazio (l'aggregazione spaziale è ben rilevata in Giacomini, R. e Granger, CWJ (2004) ).

Risposte (lunghe)

Ora, rispondendo alle tue domande, ho messo prima un'intuizione approssimativa. Poiché i problemi che incontro nella pratica sono spesso basati su dati inesatti (ipotesi di Andy

puoi misurare una serie temporale di osservazioni a qualsiasi livello di precisione nel tempo

sembra troppo forte per la macro-econometria, ma buono per la finanza e la micro-econometria o qualsiasi campo sperimentale, se controlli la precisione abbastanza bene) Devo tenere a mente che le mie serie storiche mensili sono meno precise rispetto a quando lavoro con dati annuali. Inoltre, le serie temporali più frequenti, almeno nella macroeconomia, hanno modelli stagionali , che possono portare a falsirisultati (le parti stagionali non correlano le serie), quindi è necessario regolare stagionalmente i dati, un'altra fonte di precisione minore per dati a frequenza più elevata. Lavorare con dati trasversali ha rivelato che l'elevato livello di disaggregazione comporta più problemi con probabilmente molti zeri da affrontare. Ad esempio, una particolare famiglia nel pannello dei dati può acquistare un'auto una volta ogni 5-10 anni, ma la domanda aggregata di auto nuove (usate) è molto più agevole (anche per una piccola città o regione).

L' aggregazione dei punti più deboli comporta sempre la perdita di informazioni, potresti avere il PIL prodotto dalla sezione trasversale dei paesi dell'UE durante l'intero decennio (diciamo il periodo 2001-2010), ma perderai tutte le caratteristiche dinamiche che potrebbero essere presenti nella tua analisi considerando un set di dati dettagliato del pannello. L'aggregazione trasversale su larga scala può diventare ancora più interessante: tu, approssimativamente, prendi cose semplici (memoria corta AR (1)) facendole una media su una popolazione abbastanza grande e ottieni un agente di memoria lungo "rappresentativo" che non assomiglia a nessuno dei micro unità (un'altra pietra per il concetto dell'agente rappresentativo). Quindi aggregazione ~ perdita di informazioni ~ proprietà diverse degli oggetti e vorresti prendere il controllo del livello di questa perdita e / o nuove proprietà. A mio avviso, è meglio disporre di dati precisi a micro livello alla massima frequenza possibile, ma ...

Tecnicamente producendo qualsiasi analisi di regressione hai bisogno di più spazio (gradi di libertà) per essere più o meno fiducioso che (almeno) statisticamente i tuoi risultati non sono spazzatura, anche se possono ancora essere teorici e spazzatura :) Quindi ho messo uguale pesi alle domande 1 e 2 (di solito scegliere i dati trimestrali per la macroanalisi). Rispondendo alla terza domanda secondaria, tutto ciò che decidi nelle applicazioni pratiche è ciò che è più importante per te: dati più precisi o gradi di libertà. Se si prende in considerazione il presupposto citato, è preferibile disporre di dati più dettagliati (o con frequenza più elevata).

Probabilmente la risposta verrà modificata in seguito a qualche tipo di discussione, se presente.


Grazie per la risposta. Mi ci vorranno almeno alcuni giorni per elaborare i materiali presentati. Vorrei anche dire che la tua tesi è incredibilmente bella e dopo aver letto la tua presentazione non vedo l'ora di leggere il resto.
Andy W,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.