Risposta breve: entrambe le tecniche di validazione comportano l'addestramento e il collaudo di numerosi modelli.
Risposta lunga su come farlo al meglio: dipende ovviamente. Ma ecco alcuni pensieri che utilizzo per guidare le mie decisioni sul ricampionamento della convalida. Sono chemometrico, quindi queste strategie e anche i termini sono più o meno strettamente correlati a problemi chimico-analitici.
Per spiegare un po 'i miei pensieri, penso alla convalida come alla misurazione della qualità del modello e alla formazione come alla misurazione dei parametri del modello - questo porta ad un'analogia abbastanza potente con ogni altro tipo di misurazione.
Esistono due diversi punti di vista su questi approcci rispetto alla validazione:
un punto di vista tradizionale per la convalida del ricampionamento è: il set di dati ricampionato (a volte chiamato set di dati surrogato o sottoinsieme) è praticamente lo stesso del set di dati originale (reale).
Pertanto, un "modello surrogato" adatto all'insieme di dati surrogato è praticamente lo stesso dell'adattamento del modello all'intero set di dati reale. Ma alcuni esempi sono esclusi dal set di dati surrogati, il modello è indipendente da questi. Pertanto, prendo quei campioni lasciati fuori o fuori dal bootstrap come set di validazione indipendente per il modello surrogato e uso il risultato come approssimazione del modello di dati interi.
Tuttavia, il modello surrogato spesso non è realmente equivalente al modello a dati interi: sono stati utilizzati meno campioni per l'allenamento (anche per il bootstrap, il numero di campioni diversi è inferiore). Finché la curva di apprendimento è in aumento, il modello surrogato è in media un po 'peggio del modello a dati interi. Questo è il noto pregiudizio pessimistico della convalida del ricampionamento (se si finisce con un pregiudizio ottimistico, questo di solito è un indicatore del fatto che il set di test lasciato fuori / oob non era indipendente dal modello).
Il secondo punto di vista è che il set di dati ricampionato è una versione perturbata dell'intero set di dati. Esaminando il modo in cui i modelli surrogati (o le loro previsioni per i campioni lasciato fuori / oob) differiscono dal modello di dati completi, si dice qualcosa sulla stabilità del modello rispetto ai dati di addestramento.
Da questo punto di vista, i modelli surrogati sono qualcosa come misurazioni ripetute. Supponi che il tuo compito sia misurare il contenuto di alcuni minerali di un intero treno di minerali. Il minerale non è omogeneo. Quindi prendi campioni fisici da diverse posizioni e poi guardi il contenuto generale e la sua variazione attraverso il treno. Allo stesso modo, se ritieni che il tuo modello potrebbe non essere stabile, puoi esaminare le prestazioni generali e la variazione dei modelli surrogati.
n eseguito con casi già noti al modello. In altre parole, vengono testati solo i casi esclusi. Ciò viene ripetuto più volte (ogni modello esclude una diversa serie di casi) al fine di (a) misurare e (b) calcolare la media nel miglior modo possibile delle variazioni dovute alle dimensioni finite (piccole) del campione (sia per i test che per la formazione) .
La convalida del ricampionamento non consente di misurare le prestazioni per campioni sconosciuti . Se inoltre si desidera misurare le prestazioni per campioni futuri sconosciuti (deriva strumentale!), È necessario un set di test che viene misurato "in futuro", cioè un certo tempo dopo che tutti i campioni di allenamento sono stati misurati. Nella chimica analitica, questo è necessario, ad esempio, se vuoi scoprire con quale frequenza devi ripetere la calibrazione del tuo strumento (per ogni determinazione, giornaliera, settimanale, mensile, ...)
Bootstrap vs. terminologia di convalida incrociata :
- il ricampionamento con la sostituzione è spesso chiamato bootstrap,
- ricampionamento senza convalida incrociata sostitutiva.
Entrambi possono avere una sorta di stratificazione. Storicamente, la suddivisione per la convalida incrociata (almeno in chemiometria) è stata spesso eseguita in modo non casuale, ad esempio una convalida incrociata tripla del modulo abcabc..abc (set di dati ordinati in base al risultato) per la calibrazione / regressione se si hanno pochissimi casi (campioni fisici) e si desidera assicurarsi che l'intero intervallo di dati sia coperto.
Entrambe le tecniche sono di solito ripetute / ripetute più volte. Ancora per ragioni storiche e almeno in chemiometria, la validazione incrociata di k-fold spesso significa addestramento e test di modelli k (ciascuno testato con l'1 / kth dei dati che non era coinvolto nell'allenamento). Se tale suddivisione casuale viene ripetuta, la gente la chiama ripetizione ripetuta iterata o ripetuta.
KKnnn
- Si noti che il bootstrap non è appropriato per alcune tecniche di adattamento del modello che rimuovono prima le misurazioni duplicate.
- Esistono alcune varianti del bootstrap, ad esempio .632-bootstrap e .632 + -bootstrap
KK