La mia domanda in breve: ci sono metodi per migliorare il tempo di esecuzione di R MICE (imputazione dei dati)?
Sto lavorando con un set di dati (30 variabili, 1,3 milioni di righe) che contiene (in modo abbastanza casuale) dati mancanti. Circa l'8% delle osservazioni in circa 15 variabili su 30 contengono NA. Per imputare i dati mancanti, sto eseguendo la funzione MICE, parte del pacchetto MICE .
Ho un tempo di esecuzione piuttosto lento, anche su un sottoinsieme (100.000 righe), con method = "fastpmm" e m = 1 e funziona per circa 15 minuti.
C'è un modo per migliorare il tempo di esecuzione senza perdere troppo nelle prestazioni? (mice.impute.mean è abbastanza veloce, ma viene fornito con un'importante perdita di informazioni!).
Codice riproducibile:
library(mice)
df <- data.frame(replicate(30,sample(c(NA,1:10),1000000,rep=TRUE)))
df <- data.frame(scale(df))
output <- mice(df, m=1, method = "fastpmm")