Cosa sono le regolarità e la regolarizzazione?


12

Sento sempre più queste parole mentre studio l'apprendimento automatico. In effetti, alcune persone hanno vinto la medaglia Fields lavorando su regolarità di equazioni. Quindi, immagino che questo sia un termine che va dalla fisica statistica / matematica all'apprendimento automatico. Naturalmente, un certo numero di persone a cui ho chiesto non è stato in grado di spiegarlo intuitivamente.

So che metodi come il dropout aiutano nella regolarizzazione (=> dicono che riduce il sovradimensionamento, ma in realtà non capisco cosa sia: se riduce solo il sovradimensionamento, perché non chiamarlo solo metodi anti-sovrastimamento => ci deve essere qualcosa di più penso, quindi questa domanda).

Le sarei davvero grato (credo che lo sarebbe anche l'ingenua comunità ML!) Se potessi spiegare:

  1. Come si definisce la regolarità? Cos'è la regolarità?

  2. La regolarizzazione è un modo per garantire regolarità? cioè catturare regolarità?

  3. Perché metodi di ensemble come dropout, metodi di normalizzazione dichiarano di fare regolarizzazione?

  4. Perché questi (regolarità / regolarizzazione) emergono nell'apprendimento automatico?

Grazie mille per il vostro aiuto.

Risposte:


8

La regolarizzazione è impiegata in quasi tutti gli algoritmi di apprendimento automatico in cui stiamo cercando di imparare da campioni finiti di dati di addestramento.

Cercherò di rispondere indirettamente alle tue domande specifiche spiegando la genesi del concetto di regolarizzazione. La teoria completa è molto più dettagliata e questa spiegazione non deve essere interpretata come completa, ma intende semplicemente indicarti la giusta direzione per ulteriori esplorazioni. Poiché il tuo obiettivo principale è quello di ottenere una comprensione intuitiva della regolarizzazione, ho riassunto e semplificato in modo sostanziale la seguente spiegazione dal capitolo 7 di "Reti neurali e macchine per l'apprendimento", terza edizione di Simon Haykin (e omettendo diversi dettagli mentre lo facevo).

Consente di rivisitare il problema di apprendimento supervisionato con variabili indipendenti e variabile dipendente nel tentativo di trovare una funzione che sarà in grado di "mappare" l'ingresso X su un'uscita Y.xiyif

Per approfondire ulteriormente, comprendiamo la terminologia di Hadamard di un problema "ben posto" - un problema è ben posto se soddisfa le seguenti tre condizioni:

  1. Per ogni input ed esiste .xiyi
  2. Per una coppia di input e , se e solo se .x1x2f(x1)=f(x2)x1=x2
  3. La mappatura è continua (criteri di stabilità)f

Per l'apprendimento supervisionato, queste condizioni possono essere violate poiché:

  1. Un output distinto potrebbe non esistere per un determinato input.
  2. Potrebbero non esserci informazioni sufficienti nei campioni di addestramento per costruire una mappatura input-output unica (poiché l'esecuzione dell'algoritmo di apprendimento su diversi campioni di training porta a diverse funzioni di mappatura).
  3. Il rumore nei dati aggiunge incertezza al processo di ricostruzione che potrebbe comprometterne la stabilità.

Per risolvere tali problemi "male posti", Tikhonov ha proposto un metodo di regolarizzazione per stabilizzare la soluzione includendo una funzione non negativa che incorpora informazioni precedenti sulla soluzione.

La forma più comune di informazioni precedenti implica l'assunto che la funzione di mappatura input-output sia fluida, ovvero input simili producono output simili.

La teoria della regolarizzazione di Tikhnov aggiunge il termine di regolarizzazione alla funzione di costo (funzione di perdita da minimizzare) che include il parametro di regolarizzazione e la forma assunta della mappatura . Il valore di è scelto tra 0 e . Un valore pari a 0 implica che la soluzione è determinata completamente dai campioni di addestramento; mentre un valore di implica che gli esempi di addestramento non sono affidabili.λfλ

Pertanto, il parametro di regolarizzazione viene selezionato e ottimizzato per raggiungere l'equilibrio desiderato tra distorsione del modello e varianza del modello incorporando in essa la giusta quantità di informazioni precedenti.λ

Alcuni esempi di tali funzioni di costo regolarizzate sono:

Regressione lineare:

J(θ)=1mi=1m[hθ(xi)yi]2+λ2mj=1nθj2

Regressione logistica:

J(θ)=1mi=1m[yilog(hθ(xi))(1yi)log(1hθ(xi))]+λ2mj=1nθj2

Dove, sono i coefficienti che abbiamo identificato per , e è la stima di .θxhθ(x)y

Il secondo termine di sommatoria in ciascun esempio è il termine di regolarizzazione. Poiché questo termine è sempre un valore non negativo, impedisce all'ottimizzatore di raggiungere i minimi globali per la funzione di costo. La forma del termine mostrato qui è una regolarizzazione . Esistono molte variazioni nella forma della funzione di regolarizzazione, le forme comunemente usate sono: lazo, rete elastica e regressione della cresta. Questi hanno i loro vantaggi e svantaggi che aiutano a decidere dove applicare al meglio.L2

L'effetto netto dell'applicazione della regolarizzazione è la riduzione della complessità del modello che riduce l'adattamento eccessivo. Altri approcci alla regolarizzazione (non elencati negli esempi sopra) includono modifiche ai modelli strutturali come alberi di regressione / classificazione, alberi potenziati, ecc. Eliminando i nodi per rendere gli alberi più semplici. Più recentemente questo è stato applicato nel cosiddetto "apprendimento profondo" eliminando le connessioni tra i neuroni in una rete neurale.

Una risposta specifica a Q3 è che alcuni metodi di assemblaggio come Random Forest (o schemi di voto simili) ottengono la regolarizzazione grazie al loro metodo intrinseco, cioè votando ed eleggendo la risposta da una raccolta di alberi non regolarizzati. Anche se i singoli alberi hanno un eccesso di vestibilità, il processo di "calcolo della media" dei loro risultati impedisce all'ensemble di adattarsi eccessivamente al set di allenamento.

MODIFICARE:

Il concetto di regolarità appartiene alla teoria degli assiomatici, potresti fare riferimento a questo articolo per i puntatori - en.wikipedia.org/wiki/Axiom_of_regularity ed esplorare ulteriormente questo argomento se sei interessato ai dettagli.

Sulla regolarizzazione per reti neurali: quando si regolano i pesi durante l'esecuzione dell'algoritmo di propagazione posteriore, il termine di regolarizzazione viene aggiunto alla funzione di costo allo stesso modo degli esempi di regressione lineare e logistica. Quindi l'aggiunta del termine di regolarizzazione impedisce alla retro-propagazione di raggiungere i minimi globali.

L'articolo che descrive la normalizzazione in lotti per le reti neurali è - Normalizzazione in lotti: accelerare l'addestramento della rete profonda riducendo lo spostamento interno della covariata, Ioffe, Szegedy, 2015. È noto che la backpropagation per addestrare una rete neurale funziona meglio quando le variabili di input sono normalizzate. In questo documento, gli autori hanno applicato la normalizzazione a ciascun mini-batch utilizzato nella Discesa stocastica di gradiente per evitare il problema dei "gradienti di fuga" durante l'allenamento di molti strati di una rete neurale. L'algoritmo descritto nel loro documento tratta la media e la varianza calcolate in ciascun batch per ogni strato di attivazioni come un altro insieme di parametri ottimizzati in SGD mini-batch (oltre ai pesi NN). Le attivazioni vengono quindi normalizzate utilizzando l'intero set di allenamento. Puoi fare riferimento al loro documento per i dettagli completi di questo algoritmo. Utilizzando questo metodo, sono stati in grado di evitare l'uso di dropout per la regolarizzazione, e quindi la loro affermazione che questo è un altro tipo di regolarizzazione.


Grazie per la magnifica risposta. Potresti spiegare matematicamente un po 'come metodi come la normalizzazione raggiungono la regolarizzazione? In un discorso di Goodfellow, ha affermato che qualsiasi cosa differenziabile può fungere da regolarizzatore di una rete neurale. Inoltre, sai quali sono le regolarità? significano solo schemi o c'è qualche matematica dietro quello? grazie ancora.
Rafael,

Grazie per la risposta. Non ricordo il discorso. Nelle reti neurali aggiungiamo livelli come la normalizzazione batch. Volevo sapere come hanno contribuito alla regolarizzazione?
Rafael,

Modificato per rispondere al tuo commento e per aggiungere risposte di risposta fornite nei commenti precedenti.
Sandeep S. Sandhu,

3

Domanda 1

Non sono a conoscenza di alcuna definizione canonica e le tue domande suggeriscono che questo termine viene utilizzato con significati diversi. Cominciamo con semplici esempi (che risponderanno alla domanda 2).

Domanda 2

La regressione della cresta può essere un buon punto di partenza. È un metodo di regolarizzazione che elude il problema sollevato da una matrice singolare .

Tuttavia, il "parametro di regolarizzazione" definito nei metodi di aumento gradiente (per esempio) è qui per garantire una bassa complessità per il modello.

Domanda 3

La normalizzazione come regolarizzazione ha un altro significato (e questa terminologia è abbastanza fuorviante). Trasforma un problema complesso "dal punto di vista della discesa del gradiente" in qualcosa di più semplice. Sebbene non sia necessario calibrare una rete neurale, aiuta davvero durante la calibrazione. (Tuttavia, nota che se potessimo trovare gli estremi globali di funzioni arbitrarie, la normalizzazione non sarebbe necessaria)

Domanda 4

La regolarizzazione (come modo per ridurre la complessità di un modello) viene utilizzata per ridurre il sovrautilizzo. Meno un modello è complesso, meno è probabile che si adatti troppo.

A parte

Nella sua ricerca, S. Watanabe fa un uso rigoroso di questa terminologia.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.