Ho due set di dati A e B che sono esattamente gli stessi in termini di numero di colonne, nome delle colonne e valori. L'unica differenza è l'ordine di quelle colonne. Quindi treno il modello LightGBM su ciascuno dei due set di dati con i seguenti passaggi
- Dividi ogni set di dati in addestramento e test (usa lo stesso seme casuale e il rapporto sia per A che per B)
- Lasciare gli iperparametri praticamente predefiniti
- Imposta uno stato casuale come numero fisso (per la riproduzione)
- Ottimizza learning_rate utilizzando una ricerca griglia
- Addestra un modello LightGBM sul set di allenamento e testalo sul set di test
- Verrà scelto il tasso di apprendimento con le migliori prestazioni sul set di test
I modelli di output sui due set di dati sono molto diversi, il che mi fa pensare che l'ordine delle colonne influisca sulle prestazioni della formazione del modello utilizzando LightGBM.
Sai perché è così?