Il modello finale (pronto per la produzione) deve essere addestrato sui dati completi o solo sul set di addestramento?


23

Supponiamo di aver addestrato diversi modelli sul set di allenamento, scegline uno migliore utilizzando il set di convalida incrociata e misurato le prestazioni sul set di test. Quindi ora ho un ultimo modello migliore. Devo riqualificarli su tutti i dati disponibili o sulla soluzione di spedizione addestrati solo sul set di addestramento? Se quest'ultimo, allora perché?

AGGIORNAMENTO: Come notato da @ P.Windridge, spedire un modello riqualificato significa sostanzialmente spedire un modello senza validazione. Ma possiamo riportare le prestazioni del set di test e successivamente riqualificare il modello su dati completi aspettandoci giustamente che le prestazioni siano migliori, perché utilizziamo il nostro modello migliore e più dati. Quali problemi possono derivare da tale metodologia?


Stai lavorando in un ambiente regolamentato esternamente? (vale a dire che probabilmente devi spedire il modello validato e la tua domanda è solo ipotetica, ma vale comunque la pena di discuterne :)). Modifica: ok vedo che hai modificato il tuo post.
P.Windridge,

Credi che i tuoi dati di test siano rappresentativi della popolazione / coprano una parte della popolazione non inclusa nel campione di sviluppo? Il tuo campione di sviluppo originale è in qualche modo carente?
P.Windridge,

@ P.Windridge bene, la mia domanda è solo ipotetica. A proposito del tuo secondo commento, credo che nessuno dovrebbe aspettarsi che un ingegnere formi un buon modello mentre gli fornisce dati non rappresentativi.
Yurii,

1
Non riesco a immaginare molte situazioni in cui spediresti un modello senza convalida. Preferirei cercare di ridurre le dimensioni del campione di prova (a condizione che sia ancora abbastanza grande da convalidare!). Una discussione forse più interessante riguarda i pro / contro di / selezione / il modello basato su / tutti / i dati, quindi l'addestramento utilizzando un sottocampione e quindi la convalida sul resto.
P.Windridge,

1
Domanda simile = stats.stackexchange.com/questions/174026/… , anche se penso che potrebbe usare più discussioni
P.Windridge,

Risposte:


15

Otterrai quasi sempre un modello migliore dopo aver effettuato il refitting sull'intero campione. Ma come altri hanno detto che non hai convalida. Questo è un difetto fondamentale nell'approccio alla suddivisione dei dati. Non solo i dati dividono un'opportunità persa per modellare direttamente le differenze del campione in un modello complessivo, ma è instabile a meno che l'intero campione non sia forse più grande di 15.000 soggetti. Questo è il motivo per cui sono necessarie 100 ripetizioni della convalida incrociata 10 volte (a seconda della dimensione del campione) per ottenere precisione e stabilità e perché il bootstrap per una validazione interna forte è ancora migliore. Il bootstrap mostra anche quanto sia difficile e arbitrario il compito di selezionare le funzionalità.

Ho descritto i problemi con la convalida "esterna" in modo più dettagliato nella sezione 10.11 della Biostatistica nella ricerca biomedica .


La terminologia nel mio campo (chimica analitica) considererebbe qualsiasi suddivisione dei dati che fai (prima) dell'inizio della formazione come una validazione interna . La validazione esterna inizierebbe da qualche parte tra fare uno studio di validazione dedicato e prove ad anello.
cbeleites supporta Monica il

0

Non è necessario riqualificarsi di nuovo. Quando si segnalano i risultati, si segnalano sempre i risultati dei dati di test perché forniscono una comprensione molto migliore. Tramite il set di dati di test possiamo vedere con maggiore precisione quanto è probabile che un modello funzioni su dati fuori campione.


4
Possiamo riportare le prestazioni del set di test e successivamente riqualificare il modello su dati completi aspettandoci giustamente che le prestazioni siano migliori, perché utilizziamo la modalità migliore e più dati. C'è un difetto nel mio ragionamento?
Yurii,

Bene, se dopo il test raccogli più dati, puoi dividere nuovamente i dati, ri-addestrarli di nuovo, quindi riprovarli e quindi riportare il risultato del test dal nuovo test.
Umar,

6
Non stimando sull'intero campione si rinuncia all'opportunità di una maggiore efficienza. Questo non è giustificato. Concordo anche con il commento di Yurii sopra.
Richard Hardy,

@RichardHardy, cosa c'è che non va nel mio commento?
Umar,

È spiegato nel mio ultimo commento. Non utilizzando tutti i dati per la stima del modello si rinuncia alla massima efficienza disponibile. Perché farlo?
Richard Hardy,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.