Imputazione multipla per variabili di risultato


17

Ho un set di dati sulle prove agricole. La mia variabile di risposta è un rapporto di risposta: log (trattamento / controllo). Sono interessato a ciò che media la differenza, quindi sto eseguendo meta-regressioni RE (non ponderate, perché sembra abbastanza chiaro che la dimensione dell'effetto non è correlata alla varianza delle stime).

Ogni studio riporta la resa in granella, la resa in biomassa o entrambe. Non posso imputare la resa del grano dagli studi che riportano la resa della biomassa da sola, perché non tutte le piante studiate erano utili per il grano (la canna da zucchero è inclusa, per esempio). Ma ogni pianta che produceva grano aveva anche biomassa.

Per le covariate mancanti, ho usato l'imputazione iterativa della regressione (seguendo il capitolo del manuale di Andrew Gelman). Sembra dare risultati ragionevoli e l'intero processo è generalmente intuitivo. Fondamentalmente, prevedo i valori mancanti e utilizzo quei valori previsti per prevedere i valori mancanti e eseguo il ciclo attraverso ciascuna variabile fino a quando ciascuna variabile converge approssimativamente (nella distribuzione).

C'è qualche motivo per cui non riesco a utilizzare lo stesso processo per imputare i dati dei risultati mancanti? Posso probabilmente formare un modello di imputazione relativamente informativo per il rapporto di risposta della biomassa dato il rapporto di risposta del grano, il tipo di coltura e altre covariate che ho. Quindi farei la media dei coefficienti e dei VCV e aggiungerei la correzione MI secondo la pratica standard.

Ma cosa misurano questi coefficienti quando vengono imputati gli stessi risultati? L'interpretazione dei coefficienti è diversa dall'MI standard per le covariate? Pensandoci, non riesco a convincermi che non funziona, ma non ne sono davvero sicuro. Sono benvenuti pensieri e suggerimenti per il materiale di lettura.


Non ho la risposta, ma una domanda e due note: 1) il registro di un rapporto è, ovviamente, la differenza dei registri. Quindi il tuo DV equivale a log (trattamento) - log (controllo). 2) Quale libro di testo di Gelman stavi guardando?
Peter Flom - Ripristina Monica

Sì, il DV è equivalente a log (trattamento) -log (controllo). Sto basando l'imputazione della regressione iterativa sul capitolo (non tecnico) sui dati mancanti che Gelman ha pubblicato online: stat.columbia.edu/~gelman/arm/missing.pdf
generic_user

Mi è stato detto che imputare il risultato porta all'errore Monte Carlo. Proverò a trovare un link in seguito. Non dimenticare che devi assicurarti di includere il risultato nei modelli di imputazione per le covariate.
DL Dahly,

Risposte:


19

Come sospettavi, è valido utilizzare l'imputazione multipla per la misura di risultato. Ci sono casi in cui questo è utile, ma può anche essere rischioso. Considero la situazione in cui tutte le covariate sono complete e il risultato è incompleto.

Se il modello di imputazione è corretto, otterremo inferenze valide sulle stime dei parametri dai dati imputati. Le inferenze ottenute solo dai casi completi potrebbero in realtà essere errate se la mancanza è correlata al risultato dopo il condizionamento sul predittore, cioè sotto MNAR. Quindi l'imputazione è utile se sappiamo (o sospettiamo) che i dati sono MNAR.

In MAR, generalmente non ci sono benefici per imputare il risultato, e per un basso numero di imputazioni i risultati possono anche essere leggermente più variabili a causa dell'errore di simulazione. C'è un'importante eccezione a questo. Se abbiamo accesso a una variabile completa ausiliaria che non fa parte del modello e che è fortemente correlata con il risultato, l'imputazione può essere notevolmente più efficiente dell'analisi completa del caso, risultando in stime più precise e intervalli di confidenza più brevi. Uno scenario comune in cui ciò si verifica è se abbiamo una misura di risultato economica per tutti e una misura costosa per un sottoinsieme.

In molti set di dati, i dati mancanti si verificano anche nelle variabili indipendenti. In questi casi, dobbiamo imputare la variabile risultato poiché è necessaria la sua versione assegnata per imputare le variabili indipendenti.


Grazie, questo è coerente con la mia intuizione, ma potresti forse condividere un link a uno studio pubblicato ben fatto che imputa le variabili dipendenti? Uno dei motivi principali per cui voglio imputare le misure di esito è aumentare la dimensione del campione (da circa 250 a circa 450), al fine di facilitare i termini di interazione del prodotto tensore semi-parametrico in GAM che hanno requisiti di df molto elevati (prima che ottengano penalizzato, abbassando edf). MAR è ragionevole nel mio caso.
generic_user

1
È stato ampiamente praticato da ANOVA per ottenere progetti bilanciati. Vedi l'introduzione di RJA Little, Regressione con X mancanti, JASA 1992. Suppongo che tu sappia che aumentare le dimensioni del campione in questo modo non ti aiuta a ottenere stime più precise. Nel caso delle variabili ausiliarie, leggi la sezione sulla super-efficienza in DB Rubin, Imputazione multipla dopo 18+ anni, JASA 1996.
Stef van Buuren,

1
"In base al MAR, in genere non ci sono benefici per imputare il risultato" - ne ho già parlato prima, ma non ne ho alcun riferimento - puoi fornirne uno per favore?
Robert Long,

Penso che puoi citare Little 1992 tandfonline.com/doi/abs/10.1080/01621459.1992.10476282 per questo, ma per favore nota le eccezioni.
Stef van Buuren,

1
@StefvanBuuren - risposta utile per la maggior parte, ma la mia comprensione è che "se sappiamo (o sospettiamo) che i dati sono MNAR", l'imputazione non può risolvere i nostri problemi più di quanto non sia possibile l'analisi completa del caso. Questo sembra rientrare nella categoria "nessun pranzo libero".
rolando2,

2

L'imput dei dati di risultato è molto comune e porta a una corretta deduzione quando si tiene conto dell'errore casuale.

Sembra che quello che stai facendo sia una singola imputazione, imputando i valori mancanti con una media condizionale sotto un'analisi completa del caso. Quello che dovresti fare è un'imputazione multipla che, per le covariate continue, spiega l'errore casuale che avresti osservato se avessi misurato retroattivamente questi valori mancanti. L'algoritmo EM funziona in modo simile calcolando la media su una gamma di possibili risultati osservati.

L'imputazione singola fornisce una stima corretta dei parametri del modello quando non esiste una relazione media-varianza, ma fornisce stime di errore standard che sono distorte verso lo zero, gonfiando i tassi di errore di tipo I. Questo perché sei stato "ottimista" sull'entità dell'errore che avresti osservato se avessi misurato questi fattori.

L'imputazione multipla è un processo che genera in modo iterativo errore additivo per imputazione media condizionale, in modo che attraverso 7 o 8 imputazioni simulate, è possibile combinare i modelli e i loro errori per ottenere stime corrette dei parametri del modello e dei loro errori standard. Se mancano congiuntamente covariate e risultati, allora esiste un software in SAS, STATA e R chiamato imputazione multipla tramite equazioni concatenate in cui vengono generati set di dati "completi" (set di dati con valori imputati che sono trattati come fissi e non casuali), modello i parametri stimati da ciascun set di dati completo e le loro stime dei parametri e gli errori standard combinati usando una corretta formazione matematica (dettagli nel documento di Van Buuren).

La leggera differenza tra il processo in MI e il processo che hai descritto è che non hai tenuto conto del fatto che la stima della distribuzione condizionale del risultato utilizzando i dati imputati dipenderà dall'ordine in cui imputi determinati fattori. Avresti dovuto stimare la distribuzione condizionale del condizionamento delle covariate mancanti sull'esito in MI, altrimenti otterrai stime dei parametri distorte.


Grazie. Prima di tutto, sto programmando tutto da zero in R, non usando MICE o MI. In secondo luogo, sto imputando con disegni di una distribuzione predittiva (modellata), non solo aspettative condizionate. È di questo che stai parlando nel secondo paragrafo? In caso contrario, apprezzerei il chiarimento. Inoltre, a quale documento di Royston ti riferisci? Per il tuo ultimo punto, stai dicendo qualcosa di più complicato di "dovresti inserire la tua variabile dipendente nel modello di imputazione"? In tal caso, apprezzerei molto il chiarimento.
generic_user

Infine, non sto eseguendo un'unica imputazione. Sto inserendo 30 modelli con i dati inseriti e usando la formula B V_b = W + (1 + 1 / m) di Rubin.
generic_user

La carta Royston era collegata a hyperlink. In realtà intendevo collegare quello di Van Buuren che ha implementato il programma in R e include dettagli computazionali: doc.utwente.nl/78938 MICE / MI è un processo. Se stai imputando in base al codice di casa, dovresti elaborare meglio i dettagli. Mezzi condizionali = valori previsti se il modello è corretto (o approssimativamente, un'ipotesi necessaria). È più complicato di "aggiungere il risultato", è che stai imputando su diversi schemi mancanti (almeno 3, mancante covariata / risultato / congiuntamente mancante).
AdamO,

Se imputi singolarmente il valore previsto 30 volte, dovresti ottenere gli stessi risultati 30 volte. Come stai stimando l'errore?
AdamO,

fit,imp
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.