Punteggio di propensione corrispondente ai dati del pannello

13

Ho una serie di dati longitudinali di individui e alcuni di essi sono stati sottoposti a trattamento e altri no. Tutti gli individui sono nel campione dalla nascita fino all'età di 18 anni e il trattamento avviene a una certa età tra quella fascia. L'età del trattamento può variare a seconda dei casi. Usando la corrispondenza del punteggio di propensione vorrei abbinare le unità trattate e di controllo in coppia con una corrispondenza esatta nell'anno di nascita in modo tale da poter tracciare ciascuna coppia dalla loro nascita fino all'età di 18 anni. Complessivamente ci sono circa 150 individui trattati e 4000 non trattati. Dopo l'abbinamento, l'idea è quella di utilizzare una strategia di differenza nelle differenze per stimare l'effetto del trattamento.

Il problema che devo affrontare al momento è quello di fare la corrispondenza con i dati del pannello. Sto usando il psmatch2comando di Stata e mi associo alle caratteristiche domestiche e individuali usando la corrispondenza del punteggio di propensione. In generale con i dati del panel ci saranno diverse corrispondenze ottimali ad ogni età. Ad esempio: se A viene trattato, B e C sono controlli e tutti sono nati nel 1980, allora A e B possono essere abbinati nel 1980 all'età di 0 anni mentre A e C sono abbinati nel 1981 all'età di 1 anno e così via . Anche A può essere abbinato ai propri valori di pretrattamento degli anni precedenti.

Per aggirare questo problema, ho preso la media di tutte le variabili variabili nel tempo in modo che la corrispondenza possa identificare le persone che sono in media le più simili per la durata del campione e faccio la corrispondenza separatamente per ogni fascia di età da 0 a 18 anni. Sfortunatamente, ciò corrisponde a un'unità di controllo diversa per ciascuna unità trattata per gruppo di età.

Se qualcuno potesse indirizzarmi verso un metodo per fare una corrispondenza a coppie con i dati del pannello in Stata, questo sarebbe molto apprezzato.

stata panel-data propensity-scores

— Andy
fonte

9

Fondamentalmente è necessario creare un set di dati di ampio formato con tutte le caratteristiche rilevanti per la procedura di abbinamento, eseguire la corrispondenza su questo set di dati in sezione trasversale, quindi utilizzare l'ID per identificare la coppia abbinata nel set di dati del pannello. Ecco alcuni dettagli:

Utilizzare reshapeper creare un set di dati di grande formato. Formattare le variabili di pretrattamento nel modo in cui si desidera utilizzarle nella procedura di abbinamento. Puoi semplicemente prendere la media delle tue variabili se hai più osservazioni per un individuo, ma puoi anche trovare altri modi (puoi anche mantenere più osservazioni delle stesse variabili come health1, health2 e usarle tutte nella corrispondenza ). L'obiettivo è avere un set di dati con un'osservazione per individuo .
Utilizzando questo set di dati, eseguire la procedura di abbinamento con psmatch2.
Unire le informazioni sui casi corrispondenti con il set di dati originale. Eliminare i casi che non corrispondono, ecc. Non sono sicuro dei dettagli qui perché non conosco davvero e psmatch2ma penso che tu abbia avuto l'idea.

Utilizzando questi passaggi, è possibile abbinare i casi in base a tutte le informazioni pre-trattamento e si dispone di una sola corrispondenza per unità di trattamento.

— greg
fonte

3

Davvero non so perché questo post sia stato votato in negativo perché questa risposta aiuta davvero. Lo voterò di nuovo. Grazie Greg!

— Andy,

5

Non c'è modo di farlo in Stata o in qualsiasi altro software di cui sono a conoscenza.

Se stai cercando di correggere uno stimatore di corrispondenza distorto con le tecniche dei dati del pannello, ecco un approccio che potrebbe funzionare. Se si può presumere che la corrispondenza si occupi di alcuni, ma non tutti i pregiudizi di selezione, ma che la distorsione rimane sostanzialmente costante nel tempo, è possibile rimuovere la parte invariante del tempo di distorsione costruendo stime di corrispondenza separate in ciascun periodo e prendendo la differenza.

$t$ $t'$ $Y_0$ soddisfa

E [Y_{0 t} | X, D = 1] - E [Y_{0 t} | X, D = 0] = E [Y_{0 t^{'}} | X, D = 1] - E [Y_{0 t^{'}} | X, D = 0] = B i a s,

$\begin{equation} E[Y_{0t} \vert X, D=1]-E[Y_{0t} \vert X, D=0]=E[Y_{0t'} \vert X, D=1]-E[Y_{0t'} \vert X, D=0]=Bias, \end{equation}$

Δ_{t^{'}}^{M} = Δ^{T T} + B i a s

$\Delta^{M}_{t'}=\Delta^{TT}+Bias$

Δ_{t}^{M} = B i a s

$\Delta^{M}_{t}=Bias$

Δ_{t^{'}}^{M} - Δ_{t}^{M} = Δ^{T T}

$\Delta^{M}_{t'}-\Delta^{M}_{t}=\Delta^{TT}$

Heckman, Ichimura, Smith e Todd 1998 Econometrica ed Eichler e Lechner 2002 I lavori di Economia del lavoro sono esempi di questo approccio. D'altra parte, 150 osservazioni trattate potrebbero non essere sufficienti per far funzionare questo approccio.

— Dimitriy V. Masterov
fonte

1

Dovrebbe essere possibile abbinare le persone in coppie per i dati del pannello perché anche questi due paper ( paper1 , paper2 ) lo fanno. Sfortunatamente gli autori non dichiarano esattamente come hanno fatto. L'idea che stai descrivendo con Heckman et al (1998) è esattamente la ragione per usare Diff-in-Diff dopo l'abbinamento a coppie.

— Andy,

Non mi è chiaro che stiano eseguendo la corrispondenza dei pannelli, ma hai ragione nel dire che le procedure sono vaghe. Gli autori hanno scritto pscore, che indica una certa volontà di aiutare gli altri. Forse una e-mail a loro chiarirà le cose. Segnala ciò che dicono. È una domanda importante

— Dimitriy V. Masterov,

0

passi:

Come è stato menzionato in dettaglio da Greg, è possibile utilizzare un set di dati in sezioni trasversali, sia su mezzi di pre-trattamento che su un periodo di pre-trattamento specifico per generare la corrispondenza.
Utilizzando l'intero pannello si assegnano le variabili dell'indicatore per
a. TreatIndividual
b. TreatPeriod, quest'ultimo è uguale a zero non appena si verifica il trattamento per l'individuo trattato.

Poiché il momento in cui il Periodo di trattamento trattato passa da 0 a 1 varia da individuo a individuo e non diventa mai 1 per non trattato, è necessario assegnare lo stesso punto di partenza dalla corrispondenza trattata alla corrispondenza non trattata. Questo è intuitivo, ma vorrei ancora vedere un buon riferimento che giustifica questo approccio che non ho trovato finora.

L'impostazione della regressione sarebbe:

depvar = treatedIndvidual + treatedPeriod  + treatedIndvidual*treatedPeriod + controls

dove il termine di interazione ti dà l'effetto del trattamento.

— Matthias
fonte

-2

Hai considerato di utilizzare nnmatch comando ?

Uso questo comando ed è piuttosto completo. Tiene conto dei diversi algoritmi di abbinamento e anche dei casi in cui il punteggio di propensione è lo stesso per alcuni individui del gruppo di controllo. Naturalmente, il trattamento di questo caso dipende dall'algoritmo di adattamento, se si prende k-più vicino-vicino o kernel o qualsiasi altra cosa.

— Stat Tistician
fonte

Nell'articolo a cui hai fatto riferimento, non vedo alcuna menzione dei dati del panel. Lo hai usato per i dati del panel? In tal caso, si prega di essere specifici e fornire un codice per rispondere alla domanda di OP.

— Metriche,

La corrispondenza esatta è più semplice ma nel complesso nnmatch è più complicata poiché non memorizza gli ID di corrispondenza all'interno del set di dati corrente ma in uno separato. Finirò con un set di dati per ogni fascia d'età che deve essere unita ai dati originali. L'unione in questo caso non funziona perché le caratteristiche corrispondenti non identificano in modo univoco le persone nei dati originali. Quindi purtroppo questo non fornisce una soluzione.

— Andy,