La regolarizzazione è impiegata in quasi tutti gli algoritmi di apprendimento automatico in cui stiamo cercando di imparare da campioni finiti di dati di addestramento.
Cercherò di rispondere indirettamente alle tue domande specifiche spiegando la genesi del concetto di regolarizzazione. La teoria completa è molto più dettagliata e questa spiegazione non deve essere interpretata come completa, ma intende semplicemente indicarti la giusta direzione per ulteriori esplorazioni. Poiché il tuo obiettivo principale è quello di ottenere una comprensione intuitiva della regolarizzazione, ho riassunto e semplificato in modo sostanziale la seguente spiegazione dal capitolo 7 di "Reti neurali e macchine per l'apprendimento", terza edizione di Simon Haykin (e omettendo diversi dettagli mentre lo facevo).
Consente di rivisitare il problema di apprendimento supervisionato con variabili indipendenti e variabile dipendente nel tentativo di trovare una funzione che sarà in grado di "mappare" l'ingresso X su un'uscita Y.xiyif
Per approfondire ulteriormente, comprendiamo la terminologia di Hadamard di un problema "ben posto" - un problema è ben posto se soddisfa le seguenti tre condizioni:
- Per ogni input ed esiste .xiyi
- Per una coppia di input e , se e solo se .x1x2f(x1)=f(x2)x1=x2
- La mappatura è continua (criteri di stabilità)f
Per l'apprendimento supervisionato, queste condizioni possono essere violate poiché:
- Un output distinto potrebbe non esistere per un determinato input.
- Potrebbero non esserci informazioni sufficienti nei campioni di addestramento per costruire una mappatura input-output unica (poiché l'esecuzione dell'algoritmo di apprendimento su diversi campioni di training porta a diverse funzioni di mappatura).
- Il rumore nei dati aggiunge incertezza al processo di ricostruzione che potrebbe comprometterne la stabilità.
Per risolvere tali problemi "male posti", Tikhonov ha proposto un metodo di regolarizzazione per stabilizzare la soluzione includendo una funzione non negativa che incorpora informazioni precedenti sulla soluzione.
La forma più comune di informazioni precedenti implica l'assunto che la funzione di mappatura input-output sia fluida, ovvero input simili producono output simili.
La teoria della regolarizzazione di Tikhnov aggiunge il termine di regolarizzazione alla funzione di costo (funzione di perdita da minimizzare) che include il parametro di regolarizzazione e la forma assunta della mappatura . Il valore di è scelto tra 0 e . Un valore pari a 0 implica che la soluzione è determinata completamente dai campioni di addestramento; mentre un valore di implica che gli esempi di addestramento non sono affidabili.λfλ∞∞
Pertanto, il parametro di regolarizzazione viene selezionato e ottimizzato per raggiungere l'equilibrio desiderato tra distorsione del modello e varianza del modello incorporando in essa la giusta quantità di informazioni precedenti.λ
Alcuni esempi di tali funzioni di costo regolarizzate sono:
Regressione lineare:
J(θ)=1m∑mi=1[hθ(xi)−yi]2+λ2m∑nj=1θ2j
Regressione logistica:
J(θ)=1m∑mi=1[−yilog(hθ(xi))−(1−yi)log(1−hθ(xi))]+λ2m∑nj=1θ2j
Dove, sono i coefficienti che abbiamo identificato per , e è la stima di .θxhθ(x)y
Il secondo termine di sommatoria in ciascun esempio è il termine di regolarizzazione. Poiché questo termine è sempre un valore non negativo, impedisce all'ottimizzatore di raggiungere i minimi globali per la funzione di costo. La forma del termine mostrato qui è una regolarizzazione . Esistono molte variazioni nella forma della funzione di regolarizzazione, le forme comunemente usate sono: lazo, rete elastica e regressione della cresta. Questi hanno i loro vantaggi e svantaggi che aiutano a decidere dove applicare al meglio.L2
L'effetto netto dell'applicazione della regolarizzazione è la riduzione della complessità del modello che riduce l'adattamento eccessivo. Altri approcci alla regolarizzazione (non elencati negli esempi sopra) includono modifiche ai modelli strutturali come alberi di regressione / classificazione, alberi potenziati, ecc. Eliminando i nodi per rendere gli alberi più semplici. Più recentemente questo è stato applicato nel cosiddetto "apprendimento profondo" eliminando le connessioni tra i neuroni in una rete neurale.
Una risposta specifica a Q3 è che alcuni metodi di assemblaggio come Random Forest (o schemi di voto simili) ottengono la regolarizzazione grazie al loro metodo intrinseco, cioè votando ed eleggendo la risposta da una raccolta di alberi non regolarizzati. Anche se i singoli alberi hanno un eccesso di vestibilità, il processo di "calcolo della media" dei loro risultati impedisce all'ensemble di adattarsi eccessivamente al set di allenamento.
MODIFICARE:
Il concetto di regolarità appartiene alla teoria degli assiomatici, potresti fare riferimento a questo articolo per i puntatori - en.wikipedia.org/wiki/Axiom_of_regularity ed esplorare ulteriormente questo argomento se sei interessato ai dettagli.
Sulla regolarizzazione per reti neurali: quando si regolano i pesi durante l'esecuzione dell'algoritmo di propagazione posteriore, il termine di regolarizzazione viene aggiunto alla funzione di costo allo stesso modo degli esempi di regressione lineare e logistica. Quindi l'aggiunta del termine di regolarizzazione impedisce alla retro-propagazione di raggiungere i minimi globali.
L'articolo che descrive la normalizzazione in lotti per le reti neurali è - Normalizzazione in lotti: accelerare l'addestramento della rete profonda riducendo lo spostamento interno della covariata, Ioffe, Szegedy, 2015. È noto che la backpropagation per addestrare una rete neurale funziona meglio quando le variabili di input sono normalizzate. In questo documento, gli autori hanno applicato la normalizzazione a ciascun mini-batch utilizzato nella Discesa stocastica di gradiente per evitare il problema dei "gradienti di fuga" durante l'allenamento di molti strati di una rete neurale. L'algoritmo descritto nel loro documento tratta la media e la varianza calcolate in ciascun batch per ogni strato di attivazioni come un altro insieme di parametri ottimizzati in SGD mini-batch (oltre ai pesi NN). Le attivazioni vengono quindi normalizzate utilizzando l'intero set di allenamento. Puoi fare riferimento al loro documento per i dettagli completi di questo algoritmo. Utilizzando questo metodo, sono stati in grado di evitare l'uso di dropout per la regolarizzazione, e quindi la loro affermazione che questo è un altro tipo di regolarizzazione.