Hai effettivamente descritto correttamente il modo di lavorare con la convalida incrociata. In effetti, sei "fortunato" ad avere una ragionevole convalida impostata alla fine, perché spesso viene utilizzata la convalida incrociata per ottimizzare un modello, ma non viene effettuata alcuna convalida "reale".
Come ha detto @Simon Stelling nel suo commento, la crossvalidation porterà a una riduzione degli errori stimati (il che ha senso perché riutilizzi costantemente i dati), ma per fortuna questo è il caso di tutti i modelli, quindi, escludendo la catastrofe (cioè: gli errori sono solo ridotti leggermente per un modello "cattivo", e di più per il modello "buono"), selezionando il modello che funziona meglio su un criterio crossvalidato, in genere sarà anche il migliore "reale".
Un metodo che viene talvolta utilizzato per correggere in qualche modo gli errori inferiori, specialmente se si stanno cercando modelli parsimoniosi, è selezionare il modello più piccolo / metodo più semplice per il quale l'errore crossvalidato si trova all'interno di una SD dall'ottimale (crossvalidated). Come crossvalidation stesso, questo è un euristico, quindi dovrebbe essere usato con un po 'di attenzione (se questa è un'opzione: fai un diagramma dei tuoi errori rispetto ai tuoi parametri di ottimizzazione: questo ti darà un'idea se hai risultati accettabili)
Dato il pregiudizio al ribasso degli errori, è importante non pubblicare gli errori o altre misure di performance dalla crossvalidation senza menzionare che questi provengono dalla crossvalidation (anche se, a dire la verità: ho visto troppe pubblicazioni che non menzionano che il la misura delle prestazioni è stata ottenuta controllando le prestazioni sul set di dati originale --- quindi menzionare la crossvalidation in realtà rende i risultati più preziosi ). Per te, questo non sarà un problema, dal momento che hai un set di validazione.
Un avvertimento finale: se l'adattamento del tuo modello risulta in alcuni concorrenti stretti, è una buona idea guardare le loro prestazioni in seguito al tuo set di validazione, ma non basare la tua selezione del modello finale su quello: puoi usare al meglio questo per calmare il tuo coscienza, ma il tuo modello "finale" deve essere stato scelto prima di guardare il set di validazione.
Hai scritto la tua seconda domanda: credo che Simon abbia fornito tutte le risposte di cui hai bisogno nel suo commento, ma per completare il quadro: come spesso, è in gioco il compromesso di bias-varianza. Se sai che, in media, raggiungerai il risultato corretto (imparzialità), il prezzo è in genere che ciascuno dei tuoi calcoli individuali può trovarsi abbastanza lontano da esso (varianza elevata). Ai vecchi tempi, l'imparzialità era il nec plus ultra, ai giorni nostri, si è accettato a volte un (piccolo) pregiudizio (quindi non si sa nemmeno che la media dei calcoli porterà al risultato corretto), se provoca una varianza inferiore. L'esperienza ha dimostrato che la bilancia è accettabile con una valorizzazione incrociata di 10 volte. Per te, la distorsione sarebbe solo un problema per l'ottimizzazione del modello, poiché è possibile stimare successivamente il criterio (in modo imparziale) sul set di convalida. Pertanto, ci sono poche ragioni per non usare la crossvalidation.