Prima di tutto, desidero chiarire i termini utilizzati nella domanda, a quanto ho capito. Iniziamo normalmente con un set di dati di allenamento, utilizziamo la convalida incrociata k-fold per testare diversi modelli (o set di iperparametri) e selezioniamo il modello migliore con l'errore CV più basso. Quindi, la "stima della convalida incrociata dell'errore del test" significa usare l'errore CV più basso come errore del test, non solo l'errore CV di un modello casuale (che il caso discusso da cbeleites, ma non è ciò che facciamo normalmente). L '"errore del test effettivo" in questione è l'errore che otteniamo quando applichiamo il miglior modello CV a un set di dati di test infinito, supponendo che possiamo ottenerlo. L'errore CV dipende dal set di dati specifico che abbiamo e l'errore di test effettivo dipende dal miglior modello CV selezionato, che dipende anche dal set di dati di addestramento. Pertanto, la differenza tra l'errore CV e l'errore del test dipende da diversi set di dati di addestramento. Quindi la domanda diventa: se ripetiamo il processo sopra molte volte con set di dati di addestramento diversi e calcoliamo rispettivamente la media dei due errori, perché l'errore CV medio è inferiore all'errore di test medio, ovvero l'errore CV è distorto verso il basso? Ma prima, succede sempre?
Normalmente è impossibile ottenere molti set di dati di training e set di dati di test contenenti righe infinite. Ma è possibile farlo utilizzando i dati generati dalla simulazione. Nel "capitolo 7 Valutazione e selezione dei modelli" del libro "Gli elementi dell'apprendimento statistico" di Trevor Hastie, et al. , include tale esperimento di simulazione.
La conclusione è che, usando CV o bootstrap, "... la stima dell'errore del test per un determinato set di addestramento non è facile in generale, dati solo i dati di quello stesso set di addestramento". Per "non facile", significano che l'errore CV potrebbe essere sottostimare o sopravvalutare il vero errore del test a seconda dei diversi set di dati di allenamento, vale a dire che la varianza causata da diversi set di dati di allenamento è piuttosto grande. Che ne dici di pregiudizi? Il kNN e il modello lineare che hanno testato non sono quasi distorti: l'errore CV sopravvaluta il vero errore del test dello 0-4%, ma alcuni modelli "come alberi, convalida incrociata e cinghia di avvio possono sottostimare l'errore vero del 10%, perché il la ricerca del miglior albero è fortemente influenzata dal set di validazione ".
Per riassumere, per un particolare set di dati di allenamento, l'errore CV potrebbe essere superiore o inferiore all'errore di test reale. Per il pregiudizio, l'errore CV medio potrebbe variare da un po 'più alto a molto più basso rispetto all'errore di test reale medio a seconda dei metodi di modellazione.
Il motivo della sottovalutazione, come menzionato sopra, è che la selezione di iperparametri per il miglior modello dipende in definitiva dal particolare set di dati di addestramento che otteniamo. Un po 'di dettaglio, lascia che i migliori iperparametri siano M1 in questo particolare set di dati di allenamento. Ma M1 potrebbe non essere il miglior iperparametro su altri set di dati di allenamento, il che significa che l'errore CV minimo è inferiore all'errore CV di M1. Pertanto, gli errori CV attesi che otteniamo dal processo di formazione sono molto probabilmente inferiori all'errore CV previsto di M1. L'unica volta in cui l'errore CV minimo di un determinato set di dati di allenamento non viene distorto è quando il modello migliore è sempre il migliore indipendentemente dai set di dati di allenamento. D'altra parte, l'errore CV potrebbe anche sopravvalutare un po 'il vero errore del test, come discusso da cbeleites. Questo perché l'errore CV di piega k si ottiene usando un po 'meno dati di addestramento per addestrare il modello (per 10 volte cv, usa i dati del 90%), è distorto verso l'alto rispetto all'errore vero, ma non molto. Quindi ci sono due pregiudizi che vanno in direzioni diverse. Poiché il metodo di modellazione tende a un eccesso di vestibilità, l'uso di CV meno piegati, ad esempio 5 volte contro 10 volte, potrebbe comportare una minore distorsione.
Detto questo, in pratica non aiuta molto: di solito otteniamo solo un set di dati "particolare". se tratteniamo dal 15% al 30% come dati di test e selezioniamo il modello migliore per CV sul resto come dati di addestramento, è probabile che l'errore CV sia diverso dall'errore di test poiché entrambi differiscono dall'errore di test previsto. Potremmo essere sospettosi se l'errore CV è molto inferiore all'errore di test, ma non sapremo quale è più vicino al vero errore di test. La migliore pratica potrebbe essere solo quella di presentare entrambe le metriche.