Il modo semplice per spiegarlo è che la regolarizzazione aiuta a non adattarsi al rumore, non fa molto in termini di determinazione della forma del segnale. Se pensi all'apprendimento profondo come un gigantesco approssimatore di funzioni gloriose, ti rendi conto che ha bisogno di molti dati per definire la forma del segnale complesso.
Se non ci fosse rumore, la crescente complessità di NN produrrebbe una migliore approssimazione. Non ci sarebbe alcuna penalità per le dimensioni della NN, più grande sarebbe stata migliore in ogni caso. Considera un'approssimazione di Taylor, più termini è sempre meglio per la funzione non polinomiale (ignorando i problemi di precisione numerica).
Questo si interrompe in presenza di un rumore, perché si inizia a adattarsi al rumore. Quindi, ecco che arriva la regolarizzazione per aiutare: può ridurre l'adattamento al rumore, permettendoci così di costruire NN più grandi per adattarsi a problemi non lineari.
La seguente discussione non è essenziale per la mia risposta, ma ho aggiunto in parte per rispondere ad alcuni commenti e motivare il corpo principale della risposta sopra. Fondamentalmente, il resto della mia risposta è come i fuochi francesi che vengono con un pasto di hamburger, puoi saltare.
(Ir) Caso rilevante: regressione polinomiale
Diamo un'occhiata a un esempio giocattolo di una regressione polinomiale. È anche un buon approssimatore per molte funzioni. Vedremo la funzione nella regione x ∈ ( - 3 , 3 ) . Come puoi vedere dalla serie Taylor di seguito, l'espansione del 7 ° ordine è già abbastanza adatta, quindi possiamo aspettarci che un polinomio di 7+ ordini dovrebbe essere anche molto adatto:sin(x)x ∈ ( - 3 , 3 )
Successivamente, adatteremo i polinomi con un ordine progressivamente superiore a un piccolo set di dati molto rumoroso con 7 osservazioni:
Possiamo osservare ciò che ci è stato detto sui polinomi da molte persone consapevoli: sono instabili e iniziano a oscillare selvaggiamente con l'aumento dell'ordine dei polinomi.
Tuttavia, il problema non sono i polinomi stessi. Il problema è il rumore. Quando adattiamo i polinomi ai dati rumorosi, parte dell'adattamento è al rumore, non al segnale. Ecco gli stessi polinomi esatti adatti allo stesso set di dati ma con il rumore completamente rimosso. Gli accoppiamenti sono fantastici!
peccato( x )
Si noti inoltre che i polinomi di ordine superiore non si adattano così come l'ordine 6, poiché non vi sono abbastanza osservazioni per definirli. Quindi, diamo un'occhiata a cosa succede con 100 osservazioni. In un grafico sotto puoi vedere come un set di dati più grande ci ha permesso di adattare polinomi di ordine superiore, ottenendo così un adattamento migliore!
Fantastico, ma il problema è che di solito trattiamo dati rumorosi. Guarda cosa succede se si adatta lo stesso a 100 osservazioni di dati molto rumorosi, vedere la tabella seguente. Torniamo al punto di partenza: i polinomi di ordine superiore producono orribili accoppiamenti oscillanti. Quindi, aumentare il set di dati non è stato di grande aiuto nell'aumentare la complessità del modello per spiegare meglio i dati. Questo è, ancora una volta, perché il modello complesso si adatta meglio non solo alla forma del segnale, ma anche alla forma del rumore.
Infine, proviamo un po 'di regolarizzazione zoppa su questo problema. La tabella seguente mostra la regolarizzazione (con penalità diverse) applicata all'ordine 9 regressione polinomiale. Confronta questo per ordinare (potenza) 9 adattamento polinomiale sopra: ad un livello adeguato di regolarizzazione è possibile adattare polinomi di ordine superiore a dati rumorosi.
Nel caso non fosse chiaro: non sto suggerendo di usare la regressione polinomiale in questo modo. I polinomi sono buoni per adattamenti locali, quindi un polinomio saggio può essere una buona scelta. Adattare l'intero dominio con loro è spesso una cattiva idea, perché sono sensibili al rumore, infatti, come dovrebbe essere evidente dalle trame sopra. Se il rumore è numerico o proveniente da qualche altra fonte non è così importante in questo contesto. il rumore è rumore e i polinomi reagiranno con passione.