Sto cercando di sviluppare un modello predittivo utilizzando dati clinici ad alta dimensione, compresi i valori di laboratorio. Lo spazio dati è scarso con 5k campioni e 200 variabili. L'idea è quella di classificare le variabili utilizzando un metodo di selezione delle funzionalità (IG, RF ecc.) E utilizzare funzionalità di alto livello per lo sviluppo di un modello predittivo.
Mentre la selezione delle funzionalità sta andando bene con un approccio Naïve Bayes, ora sto affrontando un problema nell'implementazione di un modello predittivo a causa della mancanza di dati (NA) nel mio spazio variabile. Esiste un algoritmo di apprendimento automatico in grado di gestire con attenzione i campioni con dati mancanti?