La convalida del hold-out è una migliore approssimazione di "acquisizione di nuovi dati" rispetto al CV di k-fold?

Ho ripensato una risposta che ho dato a una domanda un paio di settimane fa

La convalida incrociata hold-out produce un singolo set di test che può essere utilizzato ripetutamente per la dimostrazione. Sembriamo tutti d'accordo sul fatto che questo è in molti modi una caratteristica negativa, dal momento che il set tenuto fuori potrebbe rivelarsi non rappresentativo attraverso la casualità. Inoltre, potresti finire con il sovradimensionamento dei dati di test nello stesso modo in cui puoi sovralimentare con i dati di allenamento.

Tuttavia, mi sembra che la natura statica di un campione tenuto in mano sia una migliore approssimazione di "ottenere più dati" rispetto al CV di k-fold ed evita il problema della media tra le pieghe. Tuttavia, non posso trovare alcuna base statistica per questa sensazione che ho. C'è qualche logica nella mia intuizione?

Ad esempio, ciò che ho in mente per un progetto imminente è innanzitutto utilizzare la convalida di controllo per creare e testare un modello, quindi come fase di convalida ridisegnare il set di controllo più volte per mostrare che le mie stime di errore di previsione ( sul set di test) sono robusti per l'errore di campionamento nel set di test. È una cattiva idea per qualche motivo? Questa domanda è stata posta prima ma non ha mai ricevuto risposta.

cross-validation

— shadowtalker
fonte

IMHO una delle peggiori proprietà della validazione del controllo è psicologica piuttosto che statistica: vedo un sacco di controllo che viene interpretato come se fosse un esperimento di validazione indipendente (con indipendenza già a livello sperimentale), anche se molti dei i problemi cruciali che vedo con il ricampionamento della convalida possono e accadranno lo stesso anche con l'aggancio (qualsiasi problema derivante da una divisione non corretta).

A parte questo, IMHO è quasi lo stesso del ricampionamento (almeno come l'ho visto fare in pratica). Le differenze sono

il numero totale di casi testati effettivamente diversi è inferiore (e di conseguenza la stima è meno certa).
Con l'aggancio, le prestazioni vengono dichiarate per il modello effettivamente testato, non per un modello effettivamente non testato costruito dal traing di hold-out più i dati del test di hold-out. Il ricampionamento afferma che le prestazioni misurate sono una buona approssimazione delle prestazioni di quest'ultimo modello. Ma ho anche visto l'approccio hold-out usato in questo modo ("set validation").

Esbensen e Geladi: principi di corretta convalida: uso e abuso del ricampionamento per la validazione, Journal of Chemometrics, 24 (3-4), 168-187 sostiene che in termini pratici, entrambi non sono approssimazioni molto buone per i set di dati (validazione esperimenti) che consentono di misurare le caratteristiche prestazionali davvero interessanti.

potresti finire con l'overfitting dei dati del test nello stesso modo in cui puoi sovralimentare con i dati di allenamento.

Come per qualsiasi altra convalida: se si esegue la modellazione / selezione dei modelli basata sui dati, è necessario un altro livello indipendente di convalida. Non vedo alcuna differenza qui tra schemi di hold-out e ricampionamento.

prima utilizzando la convalida dell'aggancio per creare e testare un modello, quindi come fase di convalida ridisegnare il set di aggancio più volte per dimostrare che le mie stime dell'errore di previsione (sul set di test) sono robuste rispetto all'errore di campionamento nel test impostato. È una cattiva idea per qualche motivo?

Penso di sì, sì: IMHO dovrebbe essere usato un set-up nidificato
(a meno che tu non voglia suggerire che la convalida di hold-out potrebbe e debba essere ripetuta anche - questo è un approccio valido che differisce dalla convalida iterata / ripetuta solo dall'interpretazione : se la dichiarazione di prestazione riguarda i molti modelli effettivamente testati o se è estrapolata all'unico modello creato da tutti i dati).

— cbeleites insoddisfatto di SX
fonte