Può verificarsi un overfitting negli algoritmi di ottimizzazione avanzata?

8

durante un corso online sull'apprendimento automatico di Andrew Ng in corso, mi sono imbattuto in un argomento chiamato overfitting . So che può verificarsi quando la discesa del gradiente viene utilizzata nella regressione lineare o logistica, ma può verificarsi quando vengono utilizzati algoritmi di ottimizzazione avanzata come "gradiente coniugato", "BFGS" e "L-BFGS"?

— Saksham
fonte

11

Non esiste una tecnica che elimini completamente il rischio di overfitting. I metodi che hai elencato sono tutti modi diversi per adattare un modello lineare. Un modello lineare avrà un minimo globale e quel minimo non dovrebbe cambiare indipendentemente dal sapore della discesa del gradiente che stai usando (a meno che tu non stia usando la regolarizzazione), quindi tutti i metodi che hai elencato si adatteranno (o sottovestito) ugualmente.

Passando da modelli lineari a modelli più complessi, come il deep learning, sei ancora più a rischio di vedere un overfitting. Ho avuto un sacco di reti neurali contorte che si adattano gravemente, anche se si suppone che la convoluzione riduca le possibilità di sovralimentazione sostanzialmente condividendo i pesi. In sintesi, non esiste un proiettile d'argento per il sovradimensionamento, indipendentemente dalla famiglia di modelli o dalla tecnica di ottimizzazione.

— Ryan Zotti
fonte

4

Il overfitting è generalmente il risultato dei dati e della struttura del modello. Gli algoritmi "avanzati" che menzioni hanno usi specifici che possono o meno eseguire altri metodi a seconda dei tuoi obiettivi e dei tuoi dati. Ecco una fonte per ulteriori letture: http://papers.nips.cc/paper/1895-overfitting-in-neural-nets-backpropagation-conjugate-gradient-and-early-stopping.pdf

— Hobbes
fonte