Uso improprio di convalida incrociata (segnalazione delle prestazioni per il miglior valore di iperparametro)


31

Di recente mi sono imbattuto in un documento che propone di utilizzare un classificatore k-NN su un set di dati specifico. Gli autori hanno utilizzato tutti i campioni di dati disponibili per eseguire la convalida incrociata k-fold per diversi valori k e riportare i risultati della convalida incrociata della migliore configurazione dell'iperparametro.

Per quanto ne so, questo risultato è distorto e avrebbero dovuto conservare un set di test separato per ottenere una stima dell'accuratezza su campioni non utilizzati per eseguire l'ottimizzazione dell'iperparametro.

Ho ragione? Potete fornire alcuni riferimenti (preferibilmente documenti di ricerca) che descrivono questo uso improprio della convalida incrociata?


3
Si noti che invece di un set di test separato è possibile utilizzare la cosiddetta convalida incrociata nidificata . Se cerchi questo termine su questo sito, troverai molte discussioni. Cerca in particolare le risposte di @DikranMarsupial, che è uno degli autori del secondo documento citato nella risposta accettata.
ameba dice Ripristina Monica il

Risposte:


30

Sì, ci sono problemi con la segnalazione solo dei risultati del CV di k-fold. Potresti usare ad esempio le seguenti tre pubblicazioni per il tuo scopo (anche se ce ne sono altre là fuori, ovviamente) per indirizzare le persone verso la giusta direzione:

Personalmente mi piacciono quelli perché provano a dichiarare i problemi più in un inglese semplice che in matematica.


2
Più precisamente, il problema non sta riportando risultati di convalida incrociata, ma riportando stime delle prestazioni che hanno fatto parte del processo di selezione / ottimizzazione.
cbeleites supporta Monica il

1
Si noti inoltre che il documento Bengio & Grandvalet è in qualche modo meno rilevante se il problema qui è rappresentato dalle prestazioni di un modello specifico addestrato su un determinato set di dati: discutono delle prestazioni per lo stesso algoritmo di training applicato a nuovi set di dati della stessa popolazione (che necessita includere la varianza tra diversi set di dati della stessa dimensione campionati dalla stessa fonte, il che non è un problema se si parla delle prestazioni di previsione di un modello addestrato su un set di dati specifico).
cbeleites supporta Monica il

1
@cbeleites Individuato correttamente: nella mia prima bozza della risposta ho accidentalmente scelto il terzo riferimento invece del secondo, ma in seguito non volevo più rimuovere alcuna informazione dalla risposta già accettata, motivo per cui ho invece aggiunto il secondo in tra (vedi versioni della risposta). Tuttavia, penso che la domanda riguardasse principalmente l'errore segnalato, e quei documenti sottolineano alcune delle cose che si possono fare molto male con CV in questo senso IMHO.
geekoverdose,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.