L'opzione 1 è quella corretta. È possibile aggiungere il set di dati di convalida per aggiornare i parametri del modello.
Questa è la risposta Ora parliamone. Il fatto che ciò che hai fatto sia stata la tua opzione 1. sopra è più chiaro se hai fatto la k-fold cross-validation del bootstrap (e avresti dovuto farlo - non è chiaro dalla tua domanda).
Nella convalida incrociata 5 volte, dividi i dati che hai in 5 set casuali di uguale dimensione. Chiamiamoli A, B, C, D ed E. Quindi imparerai i parametri del tuo modello (del modello stesso) in 4 dei set, diciamo A, B, C e D, e testalo o validalo in il quinto modello E. (Questo l'hai fatto). Ma poi selezioni un altro set come test / validazione (diciamo D) e impari usando gli altri 4 (A, B, C ed E). Provalo su D, ripeti.
L'errore del tuo modello predittivo è l'errore medio dei 5 test e hai una certa comprensione di come l'errore predittivo dipende dai set di apprendimento e test. Nel migliore dei casi, tutte e 5 le misure di errore sono simili e puoi essere ragionevolmente sicuro che il tuo modello funzionerà a quel livello in futuro.
Ma quale modello ?? Per ogni set di set di apprendimento avrai un parametro diverso per il modello. L'apprendimento con A, B, C, D genera un set di parametri P1, l'apprendimento con A, B, C, E, il set di parametri P2, fino a P5. Nessuno di loro è il tuo modello.
Quello che hai testato è l'errore atteso di una procedura per costruire modelli , la procedura che hai seguito quando il set di apprendimento era A, B, C, D e quando era A, B, C, E e così via. Questa procedura genera un modello con l'errore previsto?
Allora, qual è il modello finale? È l'applicazione della procedura in tutti i dati disponibili (A, B, C, D ed E). Un nuovo modello con set di parametri P0, che non hai mai generato prima, non hai dati per testarlo (dal momento che hai "usato" tutti i dati per determinare i parametri P0) e tuttavia hai una ragionevole aspettativa che funzionerà in futuro dati degli altri modelli (P1, P2 ...) costruiti utilizzando la stessa procedura.
E se non avessi eseguito una validazione incrociata o bootstrap (bootstrap è in qualche modo più complesso da spiegare - lo lascio fuori da questa discussione)? Che cosa succede se hai eseguito solo una divisione di apprendimento / convalida e una misura di errore. Quindi, l'argomento 2. può essere in qualche modo corretto ma hai un problema più grande: hai solo una misura dell'errore del modello e non sai quanto dipende tale errore dai dati utilizzati per convalidarlo. Forse, per fortuna, il tuo set di validazione del 20% è stato particolarmente facile da prevedere. Non avendo effettuato più misure di errore, sarà molto rischioso presumere che il tasso di errore previsto del modello predittivo rimarrà lo stesso per i dati futuri.
Qual è il "rischio maggiore"? Supporre che l'errore rimarrà sostanzialmente lo stesso per i dati futuri, o supporre che l'aggiunta di più dati per apprendere il modello in qualche modo "rovinerà" il modello e aumenterà il suo tasso di errore in futuro? Non so davvero come rispondere, ma sarei sospettoso di modelli che peggiorano con più dati ....