Nel Deep Learning di Poison di François Chollet si dice:
Di conseguenza, l'ottimizzazione della configurazione del modello in base alle prestazioni sul set di convalida può comportare rapidamente un overfitting al set di convalida, anche se il modello non viene mai addestrato direttamente su di esso.
Al centro di questo fenomeno è la nozione di fughe di informazioni. Ogni volta che si sintonizza un iperparametro del modello in base alle prestazioni del modello sul set di convalida, alcune informazioni sui dati di convalida perdono nel modello . Se lo fai solo una volta, per un parametro, perderanno pochissime informazioni e il tuo set di validazione rimarrà affidabile per valutare il modello. Ma se lo ripeti più volte, eseguendo un esperimento, valutando il set di convalida e modificando di conseguenza il tuo modello, perderai una quantità sempre più significativa di informazioni sul set di validazione nel modello.
Perché vengono divulgate informazioni sui dati di convalida se durante la regolazione degli iperparametri valuto le prestazioni del modello sui dati di convalida?