Impostazione dei dati per le differenze nelle differenze


9

Quale impostazione è corretta per una differenza nel modello di regressione differenza

YioSt=α+γS*T+λdt+δ*(T*dt)+εioSt

dove T è un manichino che è uguale a 1 se l'osservazione proviene dal gruppo di trattamento e d è un manichino che è uguale a 1 nel periodo di tempo successivo al trattamento

1) Campioni casuali per ciascun gruppo e tempo (ovvero 4 campioni casuali)

o

2) Dati del pannello in cui vengono monitorate le stesse unità in entrambi i periodi di tempo?

È importante e, in caso contrario, OLS può essere utilizzato con entrambi i casi?


1
Non ho visto (1) fatto - l'analisi sembra sempre = (2). Non sono sicuro del motivo per cui lo faresti (1). Ma non ho visto molti studi DID.
charles

1
Esempi di 1 sono mostrati nella sezione 13.2
B_Miner

Risposte:


19

Un presupposto chiave delle differenze nelle differenze (DID) è che entrambi i gruppi hanno una tendenza comune nella variabile degli esiti prima del trattamento. Questo è importante per argomentare che il cambiamento per il gruppo trattato è dovuto al trattamento e non perché i due gruppi erano già diversi l'uno dall'altro all'inizio.

Se campionate persone diverse prima e dopo il trattamento questo indebolirà l'argomento a meno che i campioni dei gruppi di trattamento e controllo non siano effettivamente casuali e di grandi dimensioni. Quindi potrebbe succedere che qualcuno ti chiederà: "Come puoi assicurarti che l'effetto sia dovuto al trattamento e non solo perché hai campionato diverse persone?" - e sarà difficile rispondere. Questa domanda è possibile evitare utilizzando i dati del pannello perché vengono monitorate le stesse unità statistiche nel tempo e in genere si tratta dell'approccio più solido.

Per rispondere alla tua ultima domanda: sì, i dati sono importanti ma puoi sicuramente usare OLS per stimare la tua equazione sopra. Una cosa importante che in passato è stata spesso trascurata è la corretta stima degli errori standard. Se non li correggi, la correlazione seriale li sottovaluterà di una buona quantità e troverai effetti significativi anche se probabilmente non dovresti. Come riferimento e suggerimenti su come affrontare questo problema, vedi Bertrand et al. (2004) "Quanto dovremmo fidarci delle stime delle differenze nelle differenze?" .

Come ultima cosa, se disponi di dati aggregati (ad esempio a livello statale) o se puoi aggregare facilmente i tuoi e se desideri utilizzare un metodo econometrico più recente di DID, potresti voler dare un'occhiata a Abadie et al. (2010) "Metodi di controllo sintetico per casi studio comparativi" . Il metodo di controllo sintetico è sempre più utilizzato nella ricerca odierna e esistono routine ben documentate per R e Stata. Forse questo è qualcosa di interessante anche per te.


Questo è Andy fantastico! Posso riassumere dicendo che entrambe le impostazioni dei dati sono accettabili ma che i dati del panel sono più facili da argomentare sulle ipotesi? Che entrambi possano essere adattati da OLS ma che gli errori standard di (specialmente la configurazione dei dati del pannello presumo) siano discutibili a causa della possibile correlazione seriale. Una configurazione del pannello con Newey West SE sarebbe una buona soluzione?
B_Miner

6
Sì, per il primo tipo di dati sono necessari presupposti più forti. Per gli errori standard, la correzione di Newey West dovrebbe funzionare. In realtà è analogo a uno dei metodi di correzione proposti da Bertrand et al. (usano errori standard cluster). Un metodo più recente utilizza il bootstrap che funziona abbastanza bene (vedi rbnz.govt.nz/research_and_publications/seminars_and_workshops/… ). Spero che sia di aiuto!
Andy,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.