In che modo i punteggi di propensione sono diversi dall'aggiunta di covariate in una regressione e quando sono preferiti a quest'ultima?


41

Ammetto di essere relativamente nuovo ai punteggi di propensione e all'analisi causale.

Una cosa che non è ovvio per me come nuovo arrivato è come il "bilanciamento" usando i punteggi di propensione sia matematicamente diverso da quello che succede quando aggiungiamo covariate in una regressione? Cosa c'è di diverso nell'operazione, e perché è (o è) meglio dell'aggiunta di covariate di sottopopolazione in una regressione?

Ho visto alcuni studi che fanno un confronto empirico dei metodi, ma non ho visto una buona discussione relativa alle proprietà matematiche dei due metodi e perché PSM non si presta ad interpretazioni causali includendo covariate di regressione. Sembra anche che ci sia molta confusione e polemiche in questo campo, il che rende le cose ancora più difficili da raccogliere.

Qualche idea su questo o qualche suggerimento su buone risorse / documenti per capire meglio la distinzione? (Mi sto lentamente facendo strada nel libro di causalità della Giudea Perla, quindi non c'è bisogno di indicarmelo)


3
Ti consiglio di leggere Morgan and Winship, 2007 . I capitoli 4 e 5 eseguono un confronto e un contrasto espliciti di regressione e corrispondenza per l'identificazione degli effetti causali.
conjugateprior

1
Quando si controllano le statistiche sull'equilibrio, ci si assicura che non vi sia estrapolazione tra i gruppi di trattamento che si stanno confrontando rispetto allo spazio multidimensionale delle covariate. La regressione semplicemente estrapola senza verificarlo, quindi le estrapolazioni possono dare previsioni sbagliate.
StatStudent

Risposte:


17

Una grande differenza è che la regressione "controlla" tali caratteristiche in modo lineare. L'abbinamento per punteggi di propensione elimina l'ipotesi di linearità, ma, poiché alcune osservazioni potrebbero non corrispondere, potresti non essere in grado di dire nulla su determinati gruppi.

Ad esempio, se stai studiando un programma di formazione dei lavoratori, potresti avere tutti gli iscritti come uomini, ma il controllo, la popolazione non partecipante deve essere composta da uomini e donne. Utilizzando la regressione, è possibile regredire, ad esempio, reddito su una variabile dell'indicatore di partecipazione e un indicatore maschile. Utilizzeresti tutti i tuoi dati e potresti stimare il reddito di una donna se avesse partecipato al programma.

Se stavi facendo abbinamenti, potresti abbinare solo uomini a uomini. Di conseguenza, non useresti nessuna donna nelle tue analisi e i tuoi risultati non le riguarderebbero.

La regressione può estrapolare usando l'assunto di linearità, ma la corrispondenza no. Tutte le altre ipotesi sono essenzialmente le stesse tra regressione e corrispondenza. Il vantaggio della corrispondenza rispetto alla regressione è che non è parametrico (tranne per il fatto che devi assumere il punteggio di propensione giusto, se è così che stai facendo la tua corrispondenza).

Per ulteriori discussioni, vedere la mia pagina qui per un corso che è stato fortemente focalizzato sui metodi di abbinamento. Vedi in particolare i presupposti della strategia di stima degli effetti causali .

Inoltre, assicurati di leggere l'articolo di Rosenbaum e Rubin (1983) che delinea la corrispondenza del punteggio di propensione.

Infine, la corrispondenza ha fatto molta strada dal 1983. Dai un'occhiata alla pagina web di Jas Sekhon per conoscere il suo algoritmo di corrispondenza genetica.


3
Forse è perché non sono uno statistico, ma quando sembra che tu abbia assunto una regressione lineare quando l'OP ha chiesto la regressione in generale. Ma credo che l'essenza sia che l'aggiunta di covariate a qualsiasi tipo di regressore faccia alcune ipotesi sullo spazio di input in modo che possa estrapolare a nuovi esempi e la corrispondenza è più cauta su quale tipo di cose può essere estrapolato.
rrenaud,

2
Fai delle ipotesi sulla forma funzionale delle variabili confondenti quando stimhi la funzione di propensione. Successivamente abbini anche individui che hanno valori "ravvicinati" della propensione, quindi non presumo immediatamente che la corrispondenza della propensione risolva il problema degli effetti confondenti non lineari.
AdamO,

2
I collegamenti sono interrotti.
Carlos Cinelli,

11

La risposta breve è che i punteggi di propensione non sono migliori del modello ANCOVA equivalente, in particolare per quanto riguarda l'interpretazione causale.

I punteggi di propensione sono meglio compresi come metodo di riduzione dei dati. Sono un mezzo efficace per ridurre molte covariate in un unico punteggio che può essere utilizzato per regolare un effetto di interesse per un insieme di variabili. In tal modo, risparmi i gradi di libertà regolandoti per un singolo punteggio di propensione anziché per più covariate. Ciò presenta certamente un vantaggio statistico, ma niente di più.

Una domanda che può sorgere quando si utilizza l'aggiustamento della regressione con i punteggi di propensione è se vi sia qualche guadagno nell'utilizzare il punteggio di propensione piuttosto che eseguire un aggiustamento della regressione con tutte le covariate utilizzate per stimare il punteggio di propensione incluso nel modello. Rosenbaum e Rubin hanno mostrato che la "stima puntuale dell'effetto del trattamento da un'analisi della correzione della covarianza per X multivariata è uguale alla stima ottenuta da una correzione della covarianza univariata per il discriminante lineare campione basato su X, ogni volta che viene utilizzata la stessa matrice di covarianza campione sia per l'adeguamento della covarianza che per l'analisi discriminante ". Pertanto, i risultati di entrambi i metodi dovrebbero portare alle stesse conclusioni. Tuttavia, un vantaggio nell'esecuzione della procedura in due fasi è che si può adattare un modello di punteggio di propensione molto complicato con interazioni e termini di ordine superiore per primi. Poiché l'obiettivo di questo modello di punteggio di propensione è ottenere la migliore probabilità stimata di assegnazione del trattamento, non ci si preoccupa di parametrizzare eccessivamente questo modello.

A partire dal:

METODI DI PUNTEGGIO DELLA PROPENSITÀ PER LA RIDUZIONE DELLA BIAS A CONFRONTO DI UN TRATTAMENTO A UN GRUPPO DI CONTROLLO NON RANDOMIZZATO

D'Agostino (citando Rosenbaum e Rubin)

D'agostino, RB 1998. Corrispondenza del punteggio di propensione per la riduzione del bias nel confronto di un trattamento con un gruppo di controllo non randomizzato. Statistical Medicine 17: 2265–2281.


5
(+1) C'era anche un interessante thread sulla questione della causalità in questa domanda correlata, da una prospettiva statistica, si può inferire la causalità usando i punteggi di propensione con uno studio osservazionale? .
chl

3
Concordo con la premessa generale di questa risposta, ma quando si combina in base ai punteggi di propensione non è la stessa cosa di far cadere tutte le covariate nel modello (e quindi non è solo una tecnica di riduzione dimensionale). Non è lo stesso anche se si pesa per i punteggi di propensione.
Andy W,

1
Non sono d'accordo con questa risposta. I punteggi di propensione stimati sono buoni quando bilanciano le covariate nei gruppi di trattamento e controllo e cattivi quando non lo fanno. Lo stesso che per un approccio di condizionamento alla regressione. Il fatto che siano "migliori" dipende solo da quella proprietà, che varierà da un problema all'altro.
conjugateprior

1
Non sono d'accordo perché, sebbene il criterio, l'equilibrio, sia lo stesso, le due strategie sono diverse, così come i loro punti di forza e di debolezza. Uno potrebbe o meno essere un approccio migliore, a seconda del problema. In effetti, il " modello ANCOVA equivalente " mi sembra non ben definito. (Equivalente come?)
conjugateprior

1
Destra. Ora vedo cosa significa "equivalente", ma la frase che inizia "Tuttavia" nella tua citazione introduce la differenza rilevante: in pratica prop. i punteggi sono stimati separatamente in modo preciso, quindi possono essere molto più nodosi del modello di analisi. (E c'è un'altra differenza nel seguente paragrafo dell'articolo, non citato.)
conjugateprior

7

Un riferimento probabilmente ottuso, ma se per caso hai accesso ad esso ti consiglierei di leggere questo capitolo del libro ( Apel e Sweeten, 2010 ). È rivolto agli scienziati sociali e quindi forse non è matematicamente rigoroso come sembri volere, ma dovrebbe andare abbastanza in profondità per essere più che una risposta soddisfacente alla tua domanda.

Esistono diversi modi in cui le persone trattano i punteggi di propensione che possono portare a conclusioni diverse dall'includere semplicemente le covariate in un modello di regressione. Quando uno corrisponde ai punteggi, non si ha necessariamente un supporto comune per tutte le osservazioni (cioè si hanno alcune osservazioni che sembrano non avere mai la possibilità di essere nel gruppo di trattamento, e alcune che sono sempre nel gruppo di trattamento). Inoltre si possono ponderare le osservazioni in vari modi che possono portare a conclusioni diverse.

Oltre alle risposte qui, suggerirei anche di consultare le risposte alla domanda citata. C'è più sostanza dietro i punteggi di propensione che semplicemente un trucco statistico per raggiungere l'equilibrio della covariata. Leggendo e capendo gli articoli citati da Rosenbaum e Rubin, sarà più chiaro il motivo per cui l'approccio è diverso dalla semplice aggiunta di covariate in un modello di regressione. Penso che una risposta più soddisfacente alla tua domanda non sia necessariamente nella matematica alla base dei punteggi di propensione ma nella loro logica.


@Andy W Vedi la citazione di Rosenbaum e Rubin sull'equivalenza della regressione con le covariate e l'adeguamento del punteggio di propensione nel mio post aggiornato.
Brett,

0

Mi piace pensare al PS come a una parte progettuale dello studio completamente separata dall'analisi. Cioè, potresti voler pensare in termini di design (PS) e analisi (regressione ecc ...). Inoltre, PS fornisce un mezzo per supportare la scambiabilità per il trattamento binario; forse altri possono commentare se l'inclusione delle covariate nel modello di esito può supportare abilmente la scambiabilità o se si assume la possibilità di scambiare prima di includere le covariate nel modello di esito.


-3

Stat Methods Med Res. 19 aprile 2016.

Una valutazione della distorsione nei modelli di regressione non lineare adeguati al punteggio di propensione.

I metodi di punteggio di propensione sono comunemente usati per regolare il confondimento osservato quando si stima l'effetto del trattamento condizionale negli studi osservazionali. Un metodo popolare, la regolazione covariata del punteggio di propensione in un modello di regressione, è stato empiricamente dimostrato di essere distorto in modelli non lineari. Tuttavia, non è stato presentato alcun motivo teorico sottostante convincente. Proponiamo un nuovo framework per studiare la distorsione e la coerenza degli effetti del trattamento adeguati al punteggio di propensione nei modelli non lineari che utilizza un semplice approccio geometrico per creare un collegamento tra la coerenza dello stimatore del punteggio di propensione e la pieghevolezza dei modelli non lineari. In questo quadro, dimostriamo che l'adeguamento del punteggio di propensione in un modello di esito provoca la decomposizione delle covariate osservate nel punteggio di propensione e un termine residuo. L'omissione di questo termine residuo da un modello di regressione non comprimibile porta a stime distorte del odds ratio condizionato e del hazard ratio condizionato, ma non per il rate rate condizionale. Mostriamo inoltre, tramite studi di simulazione, che la distorsione in questi stimatori aggiustati per il punteggio di propensione aumenta con dimensioni dell'effetto del trattamento maggiori, effetti di covariate più grandi e crescente dissomiglianza tra i coefficienti delle covariate nel modello di trattamento rispetto al modello di risultato.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.