Spero che i seguenti estratti forniranno una panoramica di quale sarà la mia domanda. Questi sono da http://neuralnetworksanddeeplearning.com/chap3.html
L'apprendimento quindi rallenta gradualmente. Alla fine, intorno all'epoca 280, l'accuratezza della classificazione smette praticamente di migliorare. Le epoche successive vedono semplicemente piccole fluttuazioni stocastiche vicino al valore dell'accuratezza nell'epoca 280. Contrastate questo con il grafico precedente, in cui il costo associato ai dati di addestramento continua a scendere senza intoppi. Se guardiamo solo a quel costo, sembra che il nostro modello stia ancora migliorando. Ma i risultati della precisione del test mostrano che il miglioramento è un'illusione. Proprio come il modello non apprezzato da Fermi, ciò che la nostra rete apprende dopo l'epoca 280 non generalizza più ai dati del test. E quindi non è utile l'apprendimento. Diciamo che la rete si sta adattando o sovrallenando oltre l'epoca 280.
Stiamo addestrando una rete neurale e il costo (sui dati di allenamento) sta scendendo fino all'epoca 400, ma l'accuratezza della classificazione sta diventando statica (salvo alcune fluttuazioni stocastiche) dopo l'epoca 280, quindi concludiamo che il modello si sta adattando troppo ai dati di allenamento dopo l'epoca 280.
Possiamo vedere che il costo sui dati dei test migliora fino all'età di circa 15 anni, ma in seguito inizia a peggiorare, anche se i costi sui dati di addestramento continuano a migliorare. Questo è un altro segno che il nostro modello è troppo adatto. Pone un enigma, tuttavia, che è se dovremmo considerare l'epoca 15 o l'epoca 280 come il punto in cui il superamento sta arrivando a dominare l'apprendimento? Da un punto di vista pratico, ciò che ci interessa davvero è migliorare l'accuratezza della classificazione sui dati del test, mentre il costo sui dati del test non è altro che un proxy per l'accuratezza della classificazione. E quindi ha più senso considerare l'epoca 280 come il punto oltre il quale il sovraprezzo sta dominando l'apprendimento nella nostra rete neurale.
A differenza dell'accuratezza della classificazione sui dati dei test rispetto ai costi di formazione in precedenza, ora stiamo posizionando i costi sui dati dei test a fronte dei costi di formazione.
Quindi il libro continua spiegando perché 280 è l'epoca giusta da cui è iniziato il sovradimensionamento. Questo è ciò con cui ho un problema. Non posso avvolgere la mia testa attorno a questo.
Chiediamo al modello di ridurre al minimo il costo e quindi il costo è la metrica che utilizza come misura della propria forza per classificare correttamente. Se consideriamo 280 come l'epoca giusta in cui è iniziato il sovradimensionamento, non abbiamo in alcun modo creato un modello distorto che, sebbene sia un migliore classificatore sui dati di test particolari, ma che tuttavia prende decisioni con scarsa fiducia e quindi è più incline a deviare dai risultati mostrati sui dati del test?