In che modo gli algoritmi di apprendimento dell'albero decisionale affrontano i valori mancanti (sotto il cofano)

Quali sono i metodi utilizzati dagli algoritmi di apprendimento dell'albero decisionale per gestire i valori mancanti.

Semplicemente riempiono lo slot usando un valore chiamato missing?

Grazie.

missing-data cart

— user1172468
fonte

Esistono diversi metodi utilizzati da vari alberi decisionali. Ignorare semplicemente i valori mancanti (come fa ID3 e altri vecchi algoritmi) o trattare i valori mancanti come un'altra categoria (nel caso di una caratteristica nominale) non è reale gestire i valori mancanti. Tuttavia, tali approcci sono stati utilizzati nelle prime fasi dello sviluppo dell'albero decisionale.

Gli approcci di gestione reali ai dati mancanti non utilizzano il punto dati con valori mancanti nella valutazione di una suddivisione. Tuttavia, quando i nodi figlio vengono creati e formati, tali istanze vengono distribuite in qualche modo.

Conosco i seguenti approcci per distribuire le istanze di valore mancanti ai nodi figlio:

tutto va al nodo che ha già il maggior numero di istanze (CART, non è la regola principale)
distribuire a tutti i bambini, ma con pesi ridotti, proporzionale al numero di istanze da ciascun nodo figlio (C45 e altri)
distribuire in modo casuale a un solo nodo figlio, eventualmente secondo una distribuzione categoriale (l'ho visto in varie implementazioni di C45 e CART per un tempo di esecuzione più veloce)
costruire, ordinare e utilizzare i surrogati per distribuire istanze su un nodo figlio, dove i surrogati sono funzioni di input che assomigliano meglio al modo in cui la funzione di test invia istanze di dati al nodo figlio sinistro o destro (CART, in caso contrario, viene utilizzata la regola della maggioranza)

— rapaio
fonte