La mia comprensione è che con la validazione incrociata e la selezione del modello cerchiamo di affrontare due cose:
P1 . Stimare la perdita attesa sulla popolazione durante l'allenamento con il nostro campione
P2 . Misura e segnala la nostra incertezza di questa stima (varianza, intervalli di confidenza, distorsione, ecc.)
La pratica standard sembra essere quella di ripetere la convalida incrociata, poiché ciò riduce la varianza del nostro stimatore.
Tuttavia, quando si tratta di reportistica e analisi, la mia comprensione è che la convalida interna è migliore della convalida esterna perché:
È meglio segnalare:
- Le statistiche del nostro stimatore, ad es. Intervallo di confidenza, varianza, media, ecc. Sul campione completo (in questo caso il campione CV).
di segnalare:
La perdita del nostro stimatore su un sottoinsieme di controllo del campione originale, poiché:
(i) Questa sarebbe una singola misurazione ( anche se selezioniamo il nostro stimatore con CV )
(ii) Il nostro stimatore per questa singola misurazione sarebbe stato addestrato su un set (ad esempio il set CV) che è più piccolo del nostro campione iniziale poiché dobbiamo fare spazio per il set di controllo. Ciò si traduce in una stima (pessimistica) più distorta in P1 .
È corretto? Se no perché?
Sfondo:
È facile trovare libri di testo che consigliano di dividere il campione in due set:
- Il set di CV , che viene successivamente e ripetutamente suddiviso in set di treni e convalide .
- Il hold-out (test) set, usato solo alla fine di segnalare le prestazioni stimatore
La mia domanda è un tentativo di comprendere i vantaggi e i vantaggi di questo approccio da manuale, considerando che il nostro obiettivo è quello di affrontare davvero i problemi P1 e P2 all'inizio di questo post. Mi sembra che riferire sul set di test di hold-out sia una cattiva pratica poiché l'analisi del campione CV è più istruttiva.
K-fold nidificato vs K-fold ripetuto:
In linea di principio, si può combinare la tenuta con la piega a K normale per ottenere la piega a K nidificata . Questo ci permetterebbe di misurare la variabilità del nostro stimatore, ma mi sembra che per lo stesso numero di modelli totali addestrati (numero totale di pieghe) ripetute piegature a K si otterrebbero stimatori che sono meno distorti e più accurati di K- nidificati piega. Per vedere questo:
- La piega a K ripetuta utilizza una frazione maggiore del nostro campione totale rispetto alla piega a K nidificata per la stessa K (ovvero porta a una distorsione inferiore)
- 100 iterazioni darebbero solo 10 misurazioni del nostro stimatore nella piega a K nidificata (K = 10), ma 100 misurazioni nella piega a K (più misurazioni portano a una varianza inferiore in P2 )
Cosa c'è di sbagliato in questo ragionamento?