Dal tutorial di XGBoost, penso che quando ogni albero cresce, tutte le variabili vengono scansionate per essere selezionate per dividere i nodi e verrà scelto quello con la divisione del guadagno massimo. Quindi la mia domanda è che cosa succede se aggiungo alcune variabili di rumore nel set di dati, queste variabili di rumore influenzerebbero la selezione delle variabili (per ogni albero che cresce)? La mia logica è che, poiché queste variabili di rumore NON danno la massima divisione del guadagno, non sarebbero mai selezionate, quindi non influenzano la crescita dell'albero.
Se la risposta è sì, allora è vero che "più variabili sono, meglio è per XGBoost"? Non consideriamo il tempo di allenamento.
Inoltre, se la risposta è sì, è vero che "non è necessario filtrare le variabili non importanti dal modello".
Grazie!