Perché usare i dati della sezione trasversale per inferire / prevedere i cambiamenti longitudinali è una cosa negativa?


11

Sto cercando un documento che spero esista, ma non so se lo fa. Potrebbe essere una serie di casi studio, e / o un argomento della teoria della probabilità, sul perché l'uso di dati trasversali per inferire / prevedere i cambiamenti longitudinali può essere una cosa negativa (cioè non è necessariamente così, ma può esserlo).

Ho visto l'errore commesso in un paio di modi importanti: ne sono state dedotte che, poiché le persone più ricche in Gran Bretagna viaggiano di più, quindi quando la società si arricchisce, la popolazione nel suo insieme viaggerà di più. Questa inferenza si rivelò falsa per un lungo periodo - più di un decennio. E un modello simile con l'uso di elettricità domestica: i dati trasversali implicano grandi aumenti con il reddito, che non si manifestano nel tempo.

Ci sono molte cose in corso, tra cui effetti di coorte e vincoli dal lato dell'offerta.

Sarebbe molto utile avere un unico riferimento che compilasse casi di studio del genere; e / o ha usato la teoria della probabilità per illustrare il motivo per cui l'uso di dati trasversali per inferire / prevedere i cambiamenti longitudinali può essere molto fuorviante.

Esiste un documento del genere e, in caso affermativo, che cos'è?


2
Credo che gli economisti penserebbero a questi fenomeni come a una sorta di effetto di equilibrio generale. Le persone statistiche definiscono ciò una violazione dell'Assunzione del valore del trattamento dell'unità stabile. Penso che il problema tra pannello e sezione trasversale sia un po 'un'aringa rossa.
Dimitriy V. Masterov,

Risposte:


2

In parte rispondi alla tua domanda chiedendo cambiamenti "longitudinali". I dati delle sezioni trasversali vengono chiamati perché eseguono un'istantanea nel tempo, letteralmente una sezione trasversale tagliata fuori da una società in evoluzione temporale con le sue numerose relazioni. Pertanto, la migliore deduzione che puoi sperare di fare è supponendo che qualunque cosa tu stia studiando è invariante nel tempo, o almeno ha concluso la sua evoluzione.

Dall'altro, i dati che stai cercando sono dati longitudinali o panel per economisti.

Un buon riferimento che spiega principalmente i metodi ma evidenzia anche due esempi importanti dell'Economia è qui . L'esempio 2.1 ha i tassi di investimento dell'azienda.

La sezione 3 è un po 'più teorica ma contiene molte informazioni: un modello di dati del pannello può essere

yi,t=αyi,t1+xi,tγ+ηi+vi,t.

Ora, questo tipo di modello può catturare la dipendenza dallo stato, che è (accanto all'eterogeneità non osservata) una spiegazione comune del perché le persone si comportano diversamente. Pertanto, se osservi solo le persone che viaggiano in un determinato momento, il tuo non sarà identificato, il che significa che non sei consapevole di quanto il loro viaggio ieri abbia influenzato la loro decisione di viaggiare di nuovo.α

Ora, chiudi la dipendenza del tempo per un momento, ma tieni presente che questa equazione potrebbe essere stata probabilmente il vero modello.

In un modello di sezione trasversale ora, si dovrebbe eliminare completamente il pedice perché si hanno solo dati in un periodo. Pertanto, non hai nemmeno la possibilità di rendere conto del fatto che ogni individuo nel tuo set di dati potrebbe avere molto diversi , il che influenzerà le tue regressioni verso l'alto in generale, almeno quando il vero modello è dinamico. Questo è probabilmente il motivo della sopravvalutazione, a causa di un effetto individuale non osservato (può anche essere comune), che non hai misurato ma che si è riflesso nel tuo studio trasversale.tηis

Ora, inserisci di nuovo i dati del pannello. Quello che possiamo fare è sottrarre la media nel tempo di ogni variabile che, data la media di costante nel tempo, eliminerebbe questo termine. Questa trasformazione (altre sono possibili) ti consente di concentrarti solo sulla dinamica (e in effetti perderesti qualsiasi regressore invariante nel tempo).ηi

Ora, questa è la principale differenza tra la sezione trasversale e i dati del pannello. Il fatto che sia possibile eliminare l'effetto invariante nel tempo perché si ha quella variazione di tempo consente di rimuovere alcuni pregiudizi che la stima della sezione trasversale non consente di rilevare. Pertanto, prima di contemplare un cambiamento di politica come una tassa più elevata sui viaggi perché ti aspetti che le persone viaggino e desideri più entrate statali, è più utile aver visto il fenomeno nel giro di pochi anni in modo da poter essere sicuro di non esserlo catturare eterogeneità inosservata nel tuo campione che interpreti come propensione al viaggio.

Per stimare questi modelli, è meglio passare attraverso il riferimento. Ma attenzione: ipotesi diverse sul comportamento delle persone renderanno ammissibili o meno procedure di stima diverse.

Spero che questo possa essere d'aiuto!


1

Sembra molto simile alla definizione di un processo non ergodico (le misure rispetto alle realizzazioni non sono uguali alle misure nel tempo). Purtroppo, pochi fenomeni interessanti del mondo reale sono ergodici. Immagino che questo potrebbe essere un caso di campionamento e inferenza su scala più fine, in cui potrebbero essere realizzate alcune semplificazioni. Sto pensando ad esempi di piccole scale temporali o spaziali, in cui il comportamento caotico non viene osservato, quindi i predittori possono essere linearizzati. Ma sto solo vagando qui .. Temo di non poterti aiutare nemmeno con letteratura specifica sull'argomento. Ci dispiace: / ma domanda interessante comunque

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.