XGBoost può gestire i dati mancanti nella fase di previsione


12

Di recente ho esaminato l'algoritmo XGBoost e ho notato che questo algoritmo può gestire i dati mancanti (senza richiedere imputazione) durante la fase di addestramento. Mi chiedevo se XGboost è in grado di gestire i dati mancanti (senza richiedere imputazione) quando viene utilizzato per prevedere nuove osservazioni o se è necessario imputare i dati mancanti.

Grazie in anticipo.

Risposte:


14

xgboost decide al momento dell'allenamento se i valori mancanti vanno nel nodo destro o sinistro. Scegli quale ridurre al minimo la perdita. Se non ci sono valori mancanti al momento dell'allenamento, per impostazione predefinita viene inviato qualsiasi nuovo errore al nodo giusto.

Se c'è un segnale nella distribuzione dei tuoi mancanti, allora questo è essenzialmente adatto al modello.

Fai attenzione se i tuoi dati di punteggio hanno i valori mancanti distribuiti in modo diverso dai dati di allenamento. La gestione mancante di xgboost è conveniente ma non protegge dal mascheramento.

Fonte: questa risposta

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.