Ho ripetuto misure in 2 punti in un campione di persone. Ci sono 18k persone al momento 1 e 13k al momento 2 (5000 perse al follow-up).
Voglio regredire un risultato Y misurato al tempo 2 (e il risultato non può essere misurato al tempo 1) su un insieme di predittori X misurato al tempo 1. Tutte le variabili hanno alcuni dati mancanti. La maggior parte appare relativamente casuale o la mancanza sembra ben descritta dai dati osservati. Tuttavia, la stragrande maggioranza della mancanza nel risultato Y è dovuta alla perdita da seguire. Userò l'imputazione multipla (R :: topi) e userò il set di dati completo per imputare i valori per X, ma ho ricevuto 2 pezzi di consigli contrastanti riguardo all'imputazione di Y:
1) Imputare Y da X e V (V = variabili ausiliarie utili) nell'intero campione di 18k.
2) Non imputare Y negli individui persi al follow-up (e quindi eliminarli da qualsiasi modello di regressione successivo).
Il primo ha senso perché le informazioni sono informazioni, quindi perché non usarle tutte; Quest'ultimo ha anche senso, in un modo più intuitivo: sembra sbagliato imputare il risultato a 5000 persone basate su Y ~ X + V, per poi voltarsi e stimare Y ~ X.
Qual è (più) corretto?
Questa domanda precedente è utile, ma non affronta direttamente la mancanza dovuta alla perdita di follow-up (anche se forse la risposta è la stessa; non lo so).