Ho una vasta gamma di vettori di funzionalità che userò per attaccare un problema di classificazione binaria (usando scikit learn in Python). Prima di iniziare a pensare all'imputazione, sono interessato a cercare di determinare dalle parti rimanenti dei dati se i dati mancanti sono "mancanti a caso" o mancanti non a caso.
Qual è un modo sensato per affrontare questa domanda?
Risulta una domanda migliore è chiedere se i dati mancano "completamente a caso" o no. Qual è un modo sensato per farlo?