Sembra che ci siano consigli contrastanti là fuori su come gestire il confronto tra errore treno e test, in particolare quando c'è un divario tra i due. Sembra che ci siano due scuole di pensiero che per me sembrano in conflitto. Sto cercando di capire come conciliare i due (o capire cosa mi sto perdendo qui).
Pensiero n. 1: un divario tra il treno e le prestazioni del set di prova da solo non indica un eccesso di adattamento
In primo luogo (anche discusso qui: in che modo il confronto tra errori di addestramento e test può essere indicativo di un eccesso di adattamento? ), L'idea che una differenza tra treno e set di prova da solo non può indicare un eccesso di adattamento. Ciò è in accordo con la mia esperienza pratica con, ad esempio, i metodi dell'albero insieme, in cui anche dopo l'ottimizzazione dei parametri ipertestuali basata sulla convalida incrociata, il divario tra il treno e l'errore del test può rimanere alquanto ampio. Ma (indipendentemente dal tipo di modello) fintanto che l'errore di convalida non viene ripristinato, stai bene. Almeno, questo è il pensiero.
Pensiero n. 2: quando vedi un divario tra il treno e le prestazioni del test: fai cose che potrebbero combattere il sovradimensionamento
Tuttavia, ci sono consigli che vedi, da ottime fonti che suggeriscono che un divario tra il treno e l'errore di prova è indicativo di un eccesso di adattamento. Ecco un esempio: il discorso "Nuts and Bolts of Deep Learning" di Andrew Ng (un discorso fantastico) https://www.youtube.com/watch?v=F1ka6a13S9I dove intorno alle ore 48:00 disegna un diagramma di flusso che dice "se l'errore del set di treni è basso e l'errore del set di sviluppo del treno è alto, è necessario aggiungere regolarizzazione, ottenere più dati o modificare l'architettura del modello" ... che sono tutte le azioni che è possibile intraprendere per combattere l'eccesso di equipaggiamento.
Il che mi porta a ... : mi sto perdendo qualcosa qui? Si tratta di una regola empirica specifica per modello (in genere i modelli più semplici sembrano avere uno spazio minore tra treno e prova)? O ci sono semplicemente due diverse scuole di pensiero?