La mia comprensione è che anche quando si seguono le corrette procedure di convalida incrociata e selezione dei modelli, si verificherà un overfitting se si cerca un modello abbastanza duramente , a meno che non si impongano restrizioni sulla complessità del modello, sul periodo. Inoltre, spesso le persone tentano di apprendere penalità sulla complessità del modello dai dati, il che mina la protezione che possono fornire.
La mia domanda è: quanta verità c'è nell'affermazione sopra?
Sento spesso i professionisti della ML dire: " Nella mia azienda / laboratorio, proviamo sempre ogni modello disponibile (ad es. Da biblioteche come il cursore o lo scikit-learn ) per vedere quale funziona meglio ". Spesso sostengo che questo approccio può facilmente sovrautilizzare, anche se sono seri sulla convalida incrociata e mantengono i set di controllo nel modo che desiderano. Inoltre, più sono difficili da cercare, più è probabile che si adattino troppo. In altre parole, l'ottimizzazione eccessiva è un vero problema e non esistono euristiche che possano aiutarti a combatterla sistematicamente. Sbaglio a pensare in questo modo?