Sebbene i risultati del set di test privato non possano essere utilizzati per perfezionare ulteriormente il modello, la selezione del modello su un numero enorme di modelli non viene eseguita in base ai risultati del set di test privato? Non riusciresti, con quel solo processo, a finire con il sovradimensionamento al set di test privato?
Secondo "Pseudo-matematica e ciarlataneria finanziaria: gli effetti del backtest overfitting su prestazioni fuori campione" di Bailey et.al. è relativamente facile "overfit" quando si seleziona il meglio da un gran numero di modelli valutati nello stesso set di dati. Non sta succedendo con la classifica privata di Kaggle?
- Quali sono le giustificazioni statistiche per i modelli con le migliori prestazioni nella classifica privata che sono i modelli che generalizzano i dati migliori al di fuori del campione?
- Le aziende finiscono effettivamente per usare i modelli vincenti o la classifica privata è lì solo per fornire le "regole del gioco" e le aziende sono effettivamente più interessate alle intuizioni che derivano dalla discussione del problema?