La classifica privata di Kaggle è un buon predittore delle prestazioni fuori campione del modello vincitore?


16

Sebbene i risultati del set di test privato non possano essere utilizzati per perfezionare ulteriormente il modello, la selezione del modello su un numero enorme di modelli non viene eseguita in base ai risultati del set di test privato? Non riusciresti, con quel solo processo, a finire con il sovradimensionamento al set di test privato?

Secondo "Pseudo-matematica e ciarlataneria finanziaria: gli effetti del backtest overfitting su prestazioni fuori campione" di Bailey et.al. è relativamente facile "overfit" quando si seleziona il meglio da un gran numero di modelli valutati nello stesso set di dati. Non sta succedendo con la classifica privata di Kaggle?

  • Quali sono le giustificazioni statistiche per i modelli con le migliori prestazioni nella classifica privata che sono i modelli che generalizzano i dati migliori al di fuori del campione?
  • Le aziende finiscono effettivamente per usare i modelli vincenti o la classifica privata è lì solo per fornire le "regole del gioco" e le aziende sono effettivamente più interessate alle intuizioni che derivano dalla discussione del problema?

1
In qualche modo correlato: stats.stackexchange.com/q/235591
Kodiologist l'

2
Potresti guardare la differenza tra i punteggi privati ​​e pubblici. Si potrebbe sostenere che un modello non sovradimensionato dovrebbe ottenere prestazioni simili su entrambi i set di dati.
Shadowtalker

2
@shadowtalker Sarebbe davvero un buon modo per rilevare un overfitting, ma ciò a cui siamo realmente interessati è il potere predittivo fuori campione del modello, non il grado di overfitting. Un modello di overfit - ovvero uno che funziona molto meglio nel campione che fuori dal campione - può avere prestazioni fuori campione migliori di un modello che non è troppo adatto. Non ho un riferimento a portata di mano, ma credo che ciò avvenga spesso in domini complessi, ad esempio la visione artificiale, quando si utilizzano modelli complessi, ad esempio CNN.
risciacquo

Risposte:


10

Bene, i punti che presenti sono giusti, tuttavia penso che ci sia un problema molto più reale con le persone che si adattano troppo alla classifica pubblica .

Ciò può accadere quando si effettuano circa 100 invii, il set di test pubblico finirà per essere espulso dalla selezione dell'iperparametro e quindi in modo eccessivo. Penso che la classifica privata sia necessaria al riguardo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.