Corrispondenza del punteggio di propensione dopo imputazione multipla


34

Mi riferisco a questo documento: Hayes JR, Groner JI. "Utilizzo di punteggi multipli di imputazione e propensione per testare l'effetto dei seggiolini auto e dell'utilizzo delle cinture di sicurezza sulla gravità delle lesioni dai dati del registro dei traumi." J Pediatr Surg. Maggio 2008; 43 (5): 924-7.

In questo studio, è stata eseguita un'imputazione multipla per ottenere 15 set di dati completi. I punteggi di propensione sono stati quindi calcolati per ciascun set di dati. Quindi, per ciascuna unità osservativa, è stato scelto casualmente un record da uno dei 15 set di dati completati (incluso il relativo punteggio di propensione) creando così un singolo set di dati finale per il quale è stato quindi analizzato mediante corrispondenza del punteggio di propensione.

Le mie domande sono: questo è un modo valido per eseguire la corrispondenza del punteggio di propensione dopo un'imputazione multipla? Ci sono modi alternativi per farlo?

Per il contesto: nel mio nuovo progetto, ho l'obiettivo di confrontare gli effetti di 2 metodi di trattamento utilizzando la corrispondenza del punteggio di propensione. Mancano dati e intendo utilizzare il MICEpacchetto in R per imputare i valori mancanti, quindi twangfare la corrispondenza del punteggio di propensione e quindi lme4analizzare i dati corrispondenti.

Update1:

Ho trovato questo documento che ha un approccio diverso: Mitra, Robin e Reiter, Jerome P. (2011) Punteggio di propensione che corrisponde a covariate mancanti tramite imputazione multipla sequenziale iterata [Working Paper]

In questo articolo gli autori calcolano i punteggi di propensione su tutti i set di dati imputati e poi li raggruppano facendo una media, che è nello spirito dell'imputazione multipla usando le regole di Rubin per una stima puntuale - ma è davvero applicabile per un punteggio di propensione?

Sarebbe davvero bello se qualcuno su CV potesse fornire una risposta con un commento su questi 2 diversi approcci e / o qualsiasi altro ...

Risposte:


20

La prima cosa da dire è che, per me, il metodo 1 (campionamento) sembra non avere molto merito: sta scartando i benefici di un'imputazione multipla e si riduce a un'imputazione singola per ogni osservazione, come menzionato da Stas. Non riesco a vedere alcun vantaggio nell'usarlo.

C'è un'eccellente discussione sulle questioni relative all'analisi del punteggio di propensione con dati mancanti in Hill (2004): Hill, J. "Riduzione del pregiudizio nella stima degli effetti terapeutici negli studi osservazionali che soffrono di dati mancanti" ISERP Working Papers, 2004. È scaricabile da qUI .

Il documento prende in considerazione due approcci all'uso dell'imputazione multipla (e anche altri metodi per gestire i dati mancanti) e i punteggi di propensione:

  • media dei punteggi di propensione dopo imputazione multipla, seguita da inferenza causale (metodo 2 nel tuo post sopra)

  • inferenza causale usando ogni serie di punteggi di propensione dalle imputazioni multiple seguite dalla media delle stime causali.

Inoltre, il documento considera se il risultato debba essere incluso come predittore nel modello di imputazione.

Hill afferma che, sebbene l'assegnazione multipla sia preferita ad altri metodi di gestione dei dati mancanti, in generale non esiste a priorimotivo per preferire una di queste tecniche rispetto all'altra. Tuttavia, ci possono essere motivi per preferire la media dei punteggi di propensione, in particolare quando si utilizzano determinati algoritmi di abbinamento. Hill ha condotto uno studio di simulazione nello stesso articolo e ha scoperto che la media dei punteggi di propensione prima dell'inferenza causale, quando l'inclusione del risultato nel modello di imputazione produceva i risultati migliori in termini di errore quadratico medio e la media dei punteggi prima, ma senza il risultato nel modello di imputazione, ha prodotto i migliori risultati in termini di distorsione media (differenza assoluta tra effetto terapeutico stimato e reale). In generale, è consigliabile includere il risultato nel modello di imputazione (ad esempio, vedere qui ).

Quindi sembrerebbe che il tuo metodo 2 sia la strada da percorrere.


1
Comprendo il metodo numero 2, ma non riesco a implementarlo in R. Qualcuno ha dei riferimenti a cui indicarmi?
sam,

2
Il codice R per entrambi i metodi è fornito nella vignetta per il cobaltpacchetto intitolato "Uso del cobalto con dati complicati". Puoi accedervi qui: CRAN.R-project.org/package=cobalt
Noah

13

Potrebbe esserci uno scontro di due paradigmi. L'imputazione multipla è una soluzione bayesiana fortemente basata su modelli: il concetto di imputazione corretta afferma essenzialmente che è necessario campionare dalla distribuzione posteriore ben definita dei dati, altrimenti si è fregati. La corrispondenza del punteggio di propensione, d'altra parte, è una procedura semi-parametrica: una volta calcolato il punteggio di propensione (non importa come, avresti potuto usare una stima della densità del kernel, non necessariamente un modello logit), puoi fare il resto semplicemente prendendo le differenze tra le osservazioni trattate e non trattate con lo stesso punteggio di propensione, che ora è un po 'non parametrico, poiché non è rimasto alcun modello che controlli per altre covariate. Io nonAbadie e Imbens (2008) hanno discusso che rende impossibile ottenere gli errori standard proprio in alcune delle situazioni corrispondenti. Darei più fiducia agli approcci più fluidi come la ponderazione della propensione inversa. Il mio riferimento preferito su questo è "Mostly Harmless Econometrics" , sottotitolato "An Empiricist Companion", e rivolto agli economisti, ma penso che questo libro dovrebbe essere una lettura obbligatoria per altri scienziati sociali, la maggior parte dei biostatisti e statistici non bio così che sanno come altre discipline affrontano l'analisi dei dati.

Ad ogni modo, l'utilizzo di una sola riga di dati completa simulata su 15 per osservazione equivale a una singola imputazione. Di conseguenza, si perde efficienza rispetto a tutti e 15 i set di dati completati e non è possibile stimare correttamente gli errori standard. Mi sembra una procedura inadeguata, da qualsiasi angolazione.

Certamente, spazziamo felicemente sotto il tappeto l'assunto che sia il modello di imputazione multipla sia il modello di propensione siano corretti nel senso di avere tutte le variabili giuste in tutte le giuste forme funzionali. C'è poco modo per verificarlo (anche se sarei felice di sapere altrimenti sulle misure diagnostiche per entrambi questi metodi).


(+1) In particolare perché non mi sento bene con le discontinuità introdotte dall'attuazione letterale della corrispondenza (trova il controllo con il valore più vicino possibile del punteggio di propensione e ignora il resto) . Il punteggio di propensione mi ha sempre considerato una procedura piuttosto approssimativa.
cardinale il

@cardinal, vedi aggiornamento.
StasK

In realtà ho visto più critiche su IPTW che su abbinamenti con altri metodi (dovrò leggere). Vedere le regressioni di ponderazione in base ai punteggi di propensione ( Freedman & Berk, 2008 ) e, per un esempio applicato, vedere Bjerk, 2009 . Non sono del tutto sicuro del motivo per cui consigli qui Harmless Econometrics in risposta, ma è comunque una buona raccomandazione per chiunque sia interessato agli studi osservazionali.
Andy W,

@Andy, il pezzo di Freedman & Berk sembra affrontare una situazione molto più semplice quando puoi modellare tutto in una regressione logistica. La mia comprensione è che metodi come il PSM vengono applicati in situazioni molto più disordinate quando si hanno molte più covariate e non ci si fida abbastanza bene del modello per presumere che sia specificato correttamente. Hanno notato che la situazione era favorevole per la ponderazione, ma penso che fosse favorevole per il modello rispetto ad altri possibili metodi.
StasK

2
Perché i tuoi dati non vengono archiviati e il grande teorema della massima verosimiglianza sull'uguaglianza dell'Assia inversa e sul prodotto esterno del gradiente non è più valido e nessuno dei due è una stima coerente delle varianze. È necessario utilizzare lo stimatore della varianza sandwich, ovvero lo stimatore della linearizzazione nelle statistiche dell'indagine, ovvero lo stimatore robusto bianco in econometria.
StasK,

10

Non posso davvero parlare degli aspetti teorici della domanda, ma darò la mia esperienza usando modelli PS / IPTW e imputazione multipla.

  1. Non ho mai sentito parlare di qualcuno che utilizza set di dati moltiplicati e campionamenti casuali per creare un singolo set di dati. Ciò non significa necessariamente che sia sbagliato, ma è uno strano approccio da usare. Inoltre, il set di dati non è abbastanza grande da richiedere creatività per girare 3-5 modelli invece di uno solo per risparmiare tempo e calcolo.
  2. La regola di Rubin e il metodo di pooling sono uno strumento piuttosto generale. Dato che il risultato aggregato, moltiplicato per imputazione può essere calcolato utilizzando solo la varianza e le stime, non c'è motivo per cui non riesca a vedere che non possa essere utilizzato per il tuo progetto: creare i dati imputati, eseguire l'analisi su ciascun set e quindi raggruppare. È quello che ho fatto, è quello che ho visto fatto e, a meno che tu non abbia una giustificazione specifica per non farlo, non riesco davvero a vedere un motivo per andare con qualcosa di più esotico, specialmente se non capisci cosa proseguendo con il metodo

+1 Questa è una domanda a cui è difficile fornire una buona risposta in quanto sembra essere un documento così altamente specializzato. Ma oltre a dichiarare di perdere la generosità su una precedente domanda simile, l'OP ha aggiunto una domanda chiedendo soluzioni migrate a meta. Ho fatto commenti simili ai tuoi nella mia risposta lì. Sono particolarmente dubbioso riguardo al campione dall'insieme di dati moltiplicato.
Michael R. Chernick,

Grazie ! Avete riferimenti per dove è stato utilizzato il metodo 2?
Joe King,

@JoeKing Purtroppo, non dalla cima della mia testa.
Fomite,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.