La tecnica che descrivi si chiama imputazione da regressioni sequenziali o imputazione multipla da equazioni concatenate. La tecnica è stata introdotta da Raghunathan (2001) e implementata in un pacchetto R ben funzionante chiamato mice
(van Buuren, 2012).
Un articolo di Schafer e Graham (2002) spiega bene perché l'imputazione media e la cancellazione listwise (ciò che chiamate esclusione di linea) di solito non sono buone alternative alle tecniche sopra menzionate. L'imputazione della media principale non è condizionata e quindi può influenzare le distribuzioni imputate verso la media osservata. Ridurrà anche la varianza, tra gli altri impatti indesiderati sulla distribuzione imputata. Inoltre, la cancellazione listlist funzionerà davvero solo se i dati mancano completamente a caso, come il lancio di una moneta. Inoltre aumenterà l'errore di campionamento, poiché la dimensione del campione viene ridotta.
Gli autori sopra citati di solito raccomandano di iniziare con la variabile che presenta i valori meno mancanti. Inoltre, la tecnica viene generalmente applicata in modo bayesiano (ovvero un'estensione del tuo suggerimento). Le variabili vengono visitate più spesso nella procedura di imputazione, non solo una volta. In particolare, ogni variabile è completata da disegni dalla sua distribuzione predittiva posteriore condizionale, a partire dalla variabile che presenta i valori meno mancanti. Una volta che tutte le variabili in un set di dati sono state completate, l'algoritmo ricomincia dalla prima variabile e quindi re-itera fino alla convergenza. Gli autori hanno dimostrato che questo algoritmo è Gibbs, quindi di solito converge alla corretta distribuzione multivariata delle variabili.
Di solito, poiché vi sono alcune assunzioni non verificabili, in particolare mancanti di dati casuali (ovvero se i dati sono osservati o meno dipende solo dai dati osservati e non dai valori non osservati). Inoltre, le procedure possono essere parzialmente incompatibili, motivo per cui sono state chiamate PIGS (campionatore Gibbs parzialmente incompatibile).
In pratica, l'imputazione multipla bayesiana è ancora un buon modo per affrontare i problemi di dati mancanti non monotone multivariati. Inoltre, estensioni non parametriche come la corrispondenza media predittiva aiutano a rilassare i presupposti del modello di regressione.
Raghunathan, TE, Lepkowski, J., van Hoewyk, J., & Solenberger, P. (2001). Una tecnica multivariata per moltiplicare l'imputazione dei valori mancanti usando una sequenza di modelli di regressione. Metodologia del sondaggio, 27 (1), 85–95.
Schafer, JL e Graham, JW (2002). Dati mancanti: la nostra visione dello stato dell'arte. Metodi psicologici, 7 (2), 147–177. https://doi.org/10.1037/1082-989X.7.2.147
van Buuren, S. (2012). Imputazione flessibile di dati mancanti. Boca Raton: CRC Press.