In uno studio longitudinale, dovrei imputare l'esito Y, misurato al tempo 2, per gli individui che sono stati persi per il follow-up?


10

Ho ripetuto misure in 2 punti in un campione di persone. Ci sono 18k persone al momento 1 e 13k al momento 2 (5000 perse al follow-up).

Voglio regredire un risultato Y misurato al tempo 2 (e il risultato non può essere misurato al tempo 1) su un insieme di predittori X misurato al tempo 1. Tutte le variabili hanno alcuni dati mancanti. La maggior parte appare relativamente casuale o la mancanza sembra ben descritta dai dati osservati. Tuttavia, la stragrande maggioranza della mancanza nel risultato Y è dovuta alla perdita da seguire. Userò l'imputazione multipla (R :: topi) e userò il set di dati completo per imputare i valori per X, ma ho ricevuto 2 pezzi di consigli contrastanti riguardo all'imputazione di Y:

1) Imputare Y da X e V (V = variabili ausiliarie utili) nell'intero campione di 18k.

2) Non imputare Y negli individui persi al follow-up (e quindi eliminarli da qualsiasi modello di regressione successivo).

Il primo ha senso perché le informazioni sono informazioni, quindi perché non usarle tutte; Quest'ultimo ha anche senso, in un modo più intuitivo: sembra sbagliato imputare il risultato a 5000 persone basate su Y ~ X + V, per poi voltarsi e stimare Y ~ X.

Qual è (più) corretto?

Questa domanda precedente è utile, ma non affronta direttamente la mancanza dovuta alla perdita di follow-up (anche se forse la risposta è la stessa; non lo so).

Imputazione multipla per variabili di risultato


Questo mi sembra contraddittorio - puoi spiegarlo ?: "La maggior parte sembra relativamente casuale o la mancanza sembra ben descritta dai dati osservati."
rolando2,

1
L'imputazione multipla e la maggior parte delle altre procedure di imputazione richiedono la perdita casuale dei dati (MAR). È necessario comprendere il meccanismo di logoramento nel tuo studio. Sospetto che nei tuoi studi di follow-up, tuttavia, i tuoi valori mancanti probabilmente non sono MAR o MCAR.
StatStudent

Risposte:


2

Penso che questo sia un caso di strumentazione. Vuoi una X mancante, non una Y mancante.

Y~X

Ma X è spesso mancante o misurato.

X~Z and Z does not impact Y- except through X.

Quindi puoi eseguire:

 X~Z
 Y~Predicted(X)

E richiedono alcuni aggiustamenti per gli errori standard.

Potresti anche voler esaminare la procedura Heckmann in 2 passaggi se hai un sacco di logoramento del campione. http://en.wikipedia.org/wiki/Heckman_correction


2

Direi che nessuno dei due è il più appropriato.

L'imputazione non è generalmente appropriata quando i dati non sono MAR o MCAR e raramente si verificano in quel modo. Quando imputi i tuoi valori , potrebbe essere un presupposto ragionevole da fare, ma certamente non per i tuoi datiYXY

Se si eliminano tutti i dati mancanti dai dati, i parametri diventano distorti (se i dati non sono MCAR, vedere sopra) e riduce significativamente la precisione delle stime. Questa è un'analisi "caso completo" ed è sconsigliata.

Suggerirei di rivedere i metodi di analisi della sopravvivenza là fuori. Questi sono metodi progettati per analizzare i tuoi dati dato che alcuni dei tuoi risultati sono inosservati a causa della censura. Esistono modelli che terranno conto di ciò se è possibile identificare quali osservazioni sono censurate.Y

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.