Algoritmi di machine learning per gestire i dati mancanti


25

Sto cercando di sviluppare un modello predittivo utilizzando dati clinici ad alta dimensione, compresi i valori di laboratorio. Lo spazio dati è scarso con 5k campioni e 200 variabili. L'idea è quella di classificare le variabili utilizzando un metodo di selezione delle funzionalità (IG, RF ecc.) E utilizzare funzionalità di alto livello per lo sviluppo di un modello predittivo.

Mentre la selezione delle funzionalità sta andando bene con un approccio Naïve Bayes, ora sto affrontando un problema nell'implementazione di un modello predittivo a causa della mancanza di dati (NA) nel mio spazio variabile. Esiste un algoritmo di apprendimento automatico in grado di gestire con attenzione i campioni con dati mancanti?


1
L'esistenza di risposte votate implica per me che questa domanda non è troppo ampia per rispondere. Sto votando per lasciare aperto.
gung - Ripristina Monica

Risposte:


15

Dipende dal modello che usi. Se si utilizza un modello generativo, esiste un modo di principio per gestire i valori mancanti (). Ad esempio in modelli come Naive Bayes o Gaussian Processes dovresti integrare le variabili mancanti e scegliere l'opzione migliore con le restanti variabili.

Per i modelli discriminatori è più elaborato, dal momento che ciò non è possibile. Esistono diversi approcci. Gharamani e Jordan descrivono un approccio di principio, in cui i valori mancanti vengono trattati come variabili nascoste e viene utilizzata una variante dell'algoritmo EM per stimarli. Allo stesso modo, Smola et al. descrivere una variante dell'algoritmo SVM che affronta esplicitamente il problema.

Si noti che si consiglia spesso di sostituire i valori mancanti con il valore medio della variabile. Questo è problematico, come descritto nel primo documento. A volte, mi sono imbattuto in articoli che regrediscono sulle variabili per stimare i valori mancanti, ma non posso dire se ciò si applica al tuo caso.


2
si consiglia spesso di sostituire i valori mancanti con il valore medio della variabile . Puoi indicarci la fonte?
Sergey Bushmanov,

1
@juampa Perché affermi che non è possibile integrare le variabili mancanti in modelli discriminatori? Lo facciamo per la regressione logistica in ogni momento. In effetti, si può dimostrare che è uguale all'imputazione multipla.
AdamO,

1
@SergeyBushmanov Sono con te nella tua confusione qui. Spesso non è consigliabile utilizzare un'imputazione (singola) media perché in alcuni casi porta a distorsioni e metriche di convalida anticonservativa in altri casi.
AdamO,


2

Prova a imputare usando i vicini più vicini per sbarazzarti dei dati mancanti.

Inoltre, il pacchetto Caret ha interfacce per un'ampia varietà di algoritmi e sono tutti dotati di metodi predittivi in ​​R che possono essere utilizzati per prevedere nuovi dati. Le metriche delle prestazioni possono anche essere stimate usando la validazione incrociata di k-fold usando lo stesso pacchetto.


2

Esistono anche algoritmi che possono utilizzare il valore mancante come valore univoco e diverso durante la creazione del modello predittivo, come alberi di classificazione e regressione. come xgboost


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.