Perché vengono divulgate informazioni sui dati di convalida se durante la regolazione degli iperparametri valuto le prestazioni del modello sui dati di convalida?


9

Nel Deep Learning di Poison di François Chollet si dice:

Di conseguenza, l'ottimizzazione della configurazione del modello in base alle prestazioni sul set di convalida può comportare rapidamente un overfitting al set di convalida, anche se il modello non viene mai addestrato direttamente su di esso.

Al centro di questo fenomeno è la nozione di fughe di informazioni. Ogni volta che si sintonizza un iperparametro del modello in base alle prestazioni del modello sul set di convalida, alcune informazioni sui dati di convalida perdono nel modello . Se lo fai solo una volta, per un parametro, perderanno pochissime informazioni e il tuo set di validazione rimarrà affidabile per valutare il modello. Ma se lo ripeti più volte, eseguendo un esperimento, valutando il set di convalida e modificando di conseguenza il tuo modello, perderai una quantità sempre più significativa di informazioni sul set di validazione nel modello.

Perché vengono divulgate informazioni sui dati di convalida se durante la regolazione degli iperparametri valuto le prestazioni del modello sui dati di convalida?


A proposito: non dipende solo dalla frequenza con cui lo fai, ma anche dall'incertezza casuale della tua valutazione delle prestazioni (obiettivo funzionale) durante l'ottimizzazione.
cbeleites insoddisfatto di SX il

1
@cbeleites Siamo spiacenti, cosa significa?
fabiomaia,

1
se i risultati della valorizzazione utilizzati per l'ottimizzazione fossero perfetti (ovvero né errori sistematici né casuali), l'ottimizzazione sceglierebbe il modello veramente ottimale, non si avrebbe alcun adattamento e un'altra validazione indipendente indipendente del modello scelto darebbe esattamente lo stesso risultato. L'ottimizzazione potrebbe anche tollerare errori sistematici (bias) purché non cambi con i fattori che si modificano durante l'ottimizzazione. Ora considera cosa succede se c'è un errore casuale (incertezza di varianza) nella stima delle prestazioni: ottieni rumore in cima al vero "paesaggio" performano.
cbeleites insoddisfatto di SX

1
Questo rumore può far apparire un punto (impostazioni dell'iperparametro) migliore di quello che è in realtà, quindi quelle impostazioni dell'iperparametro possono essere scelte accidentalmente (ed erroneamente). La probabilità che ciò accada aumenta con a) il numero di volte in cui si osservano tali valori di prestazione eb) la quantità di rumore che si ha al di sopra della prestazione reale (rispetto all'aumento della prestazione reale). Non si tratta del perché il riutilizzo dei risultati della convalida sia una perdita di dati, ma di come si verifichi il rispettivo overfitting e di quanto grave si debba aspettare, quindi solo un commento.
cbeleites insoddisfatto di SX

Risposte:


11

Le informazioni trapelano perché si stanno utilizzando i dati di convalida per effettuare scelte di iperparametri. In sostanza, stai creando un complicato problema di ottimizzazione: minimizza la perdita su iperparametri valutata rispetto ai dati di validazione, dove questi iperparametri regolarizzano un modello di rete neurale che ha parametri addestrati usando un set di addestramento specifico .ϕθ

Anche se i parametri sono direttamente informati dai dati di addestramento, gli iperparametri sono selezionati sulla base dei dati di validazione. Inoltre, poiché gli iperparametri influenzano implicitamente , le informazioni dai dati di convalida influenzano indirettamente il modello scelto.θϕϕθ


1
In retrospettiva, questo era abbastanza ovvio. Ma cosa significa "Se lo fai solo una volta, per un parametro, allora perderanno pochissime informazioni"? Cosa si intende lì e come si contrappone all'altro caso in cui "lo ripeti molte volte"?
fabiomaia,

4
Supponiamo di provare solo 2 configurazioni di iperparametri, misurando le prestazioni rispetto ai dati di validazione e scegliere il modello migliore. C'è una probabilità minore che, per fortuna cieca, tu sia riuscito a sovrautilizzare i dati di convalida. Al contrario, supponiamo di provare configurazioni di iperparametri e scegliere il modello migliore in base ai dati di convalida. Esiste un rischio maggiore che, per pura fortuna, sei riuscito a sovrautilizzare i dati di convalida. Vedi anche: "il giardino dei sentieri biforcuti" e la scoperta di effetti spuri. 210
Sycorax dice di reintegrare Monica il

1
Questo ha perfettamente senso. Le parole del libro originale non erano le migliori. Grazie!
fabiomaia,

La formulazione nel libro è eccellente.
Michael M,

2
A te può sembrare "eccellente" perché probabilmente sai già di cosa parla l'autore. Il commento di @Sycorax è stato molto più esplicito e utile per me.
fabiomaia,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.