Ho un set di dati con N ~ 5000 e circa 1/2 mancante su almeno una variabile importante. Il principale metodo analitico saranno i rischi proporzionali di Cox.
Ho intenzione di utilizzare l'imputazione multipla. Mi dividerò anche in un treno e un set di test.
Devo dividere i dati e quindi imputare separatamente, oppure imputare e quindi dividere?
Se è importante, userò PROC MI
in SAS
.