È sempre una buona idea allenarsi con il set di dati completo dopo la convalida incrociata ? Dirla in altro modo, è ok per allenarsi con tutti i campioni nel mio set di dati e non essere in grado di verificare se questo particolare montaggio overfits ?
Alcuni retroscena sul problema:
Supponiamo di avere una famiglia di modelli parametrizzati da . Dì anche che ho un set di punti dati e che faccio la selezione del modello con k-fold cross-validation per scegliere il modello che generalizza meglio i dati.
Per la selezione del modello, posso eseguire una ricerca (ad esempio una ricerca in griglia) su eseguendo, ad esempio, la convalida incrociata di k-fold per ciascun candidato. In ciascuna delle pieghe della convalida incrociata, con il modello appreso .
Il punto di convalida incrociata è che per ciascuna di queste pieghe posso verificare se il modello appreso si è adattato troppo, testandolo su "dati invisibili". A seconda dei risultati, potrei scegliere il modello appreso per i parametri che hanno generalizzato meglio durante la validazione incrociata nella ricerca della griglia.
Ora, diciamo che dopo la selezione del modello , vorrei usare tutti gli punti nel mio set di dati e spero di imparare un modello migliore. Per questo potrei usare i parametri corrispondenti al modello che ho scelto durante la selezione del modello, e quindi dopo l'allenamento sul set di dati completo, un nuovo modello appreso . Il problema è che, se uso tutti i punti del mio set di dati per l'allenamento, non riesco a verificare se questo nuovo modello appreso sovrappone a dati non . Qual è il modo giusto di pensare a questo problema?