Ho completato il corso di Machine Learning di Andrew Ng circa un anno fa e sto scrivendo la mia esplorazione di matematica al liceo sul funzionamento della regressione logistica e sulle tecniche per ottimizzare le prestazioni. Una di queste tecniche è, ovviamente, la regolarizzazione.
Lo scopo della regolarizzazione è prevenire il sovradimensionamento estendendo la funzione di costo per includere l'obiettivo della semplicità del modello. Possiamo raggiungere questo obiettivo penalizzando la dimensione dei pesi aggiungendo alla funzione di costo ciascuno dei pesi al quadrato, moltiplicato per alcuni parametri di regolarizzazione.
Ora, l'algoritmo di Machine Learning mirerà a ridurre le dimensioni dei pesi mantenendo l'accuratezza sul set di allenamento. L'idea è che raggiungeremo un punto nel mezzo in cui possiamo produrre un modello che si generalizza sui dati e non cerca di adattarsi a tutto il rumore stocastico essendo meno complesso.
La mia confusione è perché penalizziamo la dimensione dei pesi? Perché pesi più grandi creano modelli più complessi e pesi più piccoli creano modelli più semplici / più lisci? Andrew Ng afferma nella sua conferenza che la spiegazione è difficile da insegnare, ma immagino che sto cercando questa spiegazione ora.
Il prof. Ng ha in effetti fornito un esempio di come la nuova funzione di costo può far sì che i pesi delle caratteristiche (es. X ^ 3 e x ^ 4) tendano verso lo zero in modo da ridurre il grado del modello, ma ciò non crea un completo spiegazione.
La mia intuizione è che pesi più piccoli tenderanno ad essere più "accettabili" nelle funzioni con esponenti maggiori rispetto a quelli con esponenti più piccoli (perché le caratteristiche con pesi piccoli sono come la base della funzione). Pesi più piccoli implicano "contributi" minori alle caratteristiche con ordine elevato. Ma questa intuizione non è molto concreta.