Consiglio di dare un'occhiata a Mostly Harmless Econometrics: ne hanno una buona spiegazione a livello intuitivo.
Il problema che stai cercando di risolvere è la distorsione da selezione. Se una variabile è correlata con i potenziali esiti e con la probabilità di ricevere un trattamento, allora se scopri che il risultato atteso del trattamento è migliore del risultato atteso del non trattato, questo può essere una scoperta spuria poiché i trattati tendono ad avere una maggiore e quindi una . Il problema sorge perché rende correlato al trattamento.y 0 i , y 1 i x y 0 i , y 1 i x y 0 i , y 1 ixiy0i,y1ixy0i,y1ixy0i,y1i
Questo problema può essere risolto controllando per . Se pensiamo che la relazione tra i potenziali esiti e le variabili sia lineare, lo facciamo semplicemente includendo in una regressione con una variabile fittizia per il trattamento e la variabile fittizia interagisce con . Naturalmente, la regressione lineare è flessibile poiché possiamo includere anche funzioni di . E se non volessimo imporre una forma funzionale? Quindi dobbiamo usare un approccio non parametrico: la corrispondenza.x x x xxxxxx
Con la corrispondenza, confrontiamo le osservazioni trattate e non trattate con simili . Ci allontaniamo da questo con una stima dell'effetto del trattamento per tutti i valori (o piccoli intervalli di valori o "secchi") per i quali abbiamo sia osservazioni trattate che non trattate. Se non abbiamo molti di questi valori o bucket , in particolare se è un vettore ad alta dimensione, quindi è difficile trovare osservazioni vicine l'una all'altra, è utile proiettare questo spazio su una dimensione.x x xxxxx
Questo è ciò che fa la corrispondenza del punteggio di propensione. Se non sono correlati con il trattamento dato , allora risulta che sono anche non correlati con il trattamento dato dove è la probabilità del trattamento dato , cioè il punteggio di propensione di . x i p ( x i ) p ( x ) x xy0i,y1ixip(xi)p(x)xx
Ecco la tua intuizione: se troviamo un sottocampione di osservazioni con un punteggio di propensione molto simile , quindi per quel sottocampione, i gruppi trattati e non trattati non sono correlati con . È altrettanto probabile che ogni osservazione sia trattata o non trattata; ciò implica che qualsiasi osservazione trattata provenga ugualmente da uno qualsiasi dei valori nel sottocampione. Poiché è ciò che determina i potenziali risultati nel nostro modello, ciò implica che, per quel sottocampione, i potenziali risultatix x x y 0 i , y 1 ip(x)xxxy0i,y1inon sono correlati al trattamento. Questa condizione garantisce che la differenza media di esito del sottocampione tra il trattato e il non trattato sia una stima coerente dell'effetto medio del trattamento su questo sottocampione, vale a dire
E[yi|Treated,p(x)]−E[yi|Untreated,p(x)]
è una stima coerente dell'effetto di trattamento medio locale.
Ulteriori letture:
Dovremmo davvero utilizzare la corrispondenza del punteggio di propensione nella pratica?
Domanda correlata che confronta corrispondenza e regressione