Quanto dovrebbe essere grande la dimensione del lotto per la discesa gradiente stocastica?

La "dimensione del campione" si sta parlando viene indicato come dimensione del lotto , . Il parametro dimensione batch è solo uno degli iperparametri che sintonizzerai quando ti alleni una rete neurale con discendenza stocastica gradiente mini-batch (SGD) e dipende dai dati. Il metodo più semplice per la ricerca di iperparametri è quello di eseguire una ricerca in griglia sulla velocità di apprendimento e sulla dimensione del batch per trovare una coppia che faccia convergere la rete. $B$

Per capire quale dovrebbe essere la dimensione del lotto, è importante vedere la relazione tra discesa gradiente batch, SGD online e SGD mini-batch. Ecco la formula generale per la fase di aggiornamento del peso in SGD mini-batch, che è una generalizzazione di tutti e tre i tipi. [ 2 ]

θ_{t + 1} \leftarrow θ_{t} - ϵ (t) \frac{1}{B} \sum_{b = 0}^{B - 1} \frac{\partial L (θ, m_{b})}{\partial θ}

$\theta_{t+1} \leftarrow \theta_{t} - \epsilon(t) \frac{1}{B} \sum\limits_{b=0}^{B - 1} \dfrac{\partial \mathcal{L}(\theta, \textbf{m}_b)}{\partial \theta}$

Discesa gradiente batch, $B = |x|$
Discesa gradiente stocastica online: $B = 1$
Discesa gradiente stocastica mini-batch: ma. $B > 1$ $B < |x|$

Si noti che con 1, la funzione di perdita non è più una variabile casuale e non è un'approssimazione stocastica.

SGD converge più velocemente della normale discesa in pendenza "batch" perché aggiorna i pesi dopo aver esaminato un sottoinsieme selezionato casualmente del set di allenamento. Lascia che sia il nostro set di allenamento e lascia che . La dimensione del lotto è solo la cardinalità di :. $x$ $m \subset x$ $B$ $m$ $B = |m|$

La discesa del gradiente in batch aggiorna i pesi usando i gradienti dell'intero set di dati ; mentre SGD aggiorna i pesi usando una media dei gradienti per un mini-lotto . (L'uso della media anziché una somma impedisce all'algoritmo di eseguire passi troppo grandi se il set di dati è molto grande. Altrimenti, è necessario regolare la frequenza di apprendimento in base alla dimensione del set di dati.) Il valore atteso di questo l'approssimazione stocastica del gradiente usato in SGD è uguale al gradiente deterministico usato nella discesa del gradiente batch. . $\theta$ $x$ $m$ $\mathbb{E}[\nabla \mathcal{L}_{SGD}(\theta, \textbf{m})] = \nabla \mathcal{L}(\theta, \textbf{x})$

Ogni volta che prendiamo un campione e aggiorniamo i nostri pesi, viene chiamato un mini-batch . Ogni volta che eseguiamo l'intero set di dati, si parla di un'epoca .

Supponiamo di avere un vettore di dati , un vettore di peso iniziale che parametrizza la nostra rete neurale, e una funzione di perdita che stiamo cercando di minimizzare . Se abbiamo esempi di allenamento e una dimensione del lotto di , possiamo suddividere tali esempi di allenamento in mini lotti C: $\textbf{x} : \mathbb{R}^D$ $\theta_0 : \mathbb{R}^{S}$ $\mathcal{L}(\theta, \textbf{x}) : \mathbb{R}^{S} \rightarrow \mathbb{R}^{D} \rightarrow \mathbb{R}^S$ $T$ $B$

C = ⌈ T / B ⌉

$C = \lceil T / B \rceil$

Per semplicità possiamo supporre che T sia uniformemente divisibile per B. Anche se, quando ciò non accade, come spesso non accade, è necessario assegnare un peso adeguato a ciascun mini-lotto in funzione delle sue dimensioni.

Di seguito è riportato un algoritmo iterativo per SGD con epoche : $M$

\begin{aligned} t & \leftarrow 0 \\ while t & < M \\ θ_{t + 1} & \leftarrow θ_{t} - ϵ (t) \frac{1}{B} \sum_{b = 0}^{B - 1} \frac{\partial L (θ, m_{b})}{\partial θ} \\ t & \leftarrow t + 1 \end{aligned}

$\begin{align*} t &\leftarrow 0 \\ \textrm{while } t &< M \\ \theta_{t+1} &\leftarrow \theta_{t} - \epsilon(t) \frac{1}{B} \sum\limits_{b=0}^{B - 1} \dfrac{\partial \mathcal{L}(\theta, \textbf{m}_b)}{\partial \theta} \\ t &\leftarrow t + 1 \end{align*}$

Nota: nella vita reale stiamo leggendo questi dati di esempio di allenamento dalla memoria e, a causa del pre-recupero della cache e di altri trucchi di memoria eseguiti dal tuo computer, il tuo algoritmo funzionerà più velocemente se gli accessi alla memoria sono uniti , cioè quando leggi la memoria in ordine e non saltare in modo casuale. Pertanto, la maggior parte delle implementazioni SGD mescola il set di dati e quindi carica gli esempi in memoria nell'ordine in cui verranno letti.

I parametri principali per lo SGD vaniglia (senza slancio) sopra descritti sono:

Tasso di apprendimento: $\epsilon$

Mi piace pensare a epsilon come una funzione dal conteggio dei tempi a un tasso di apprendimento. Questa funzione è chiamata pianificazione del tasso di apprendimento .

ϵ (t) : N \to R

$\epsilon(t) : \mathbb{N} \rightarrow \mathbb{R}$

Se vuoi che il tasso di apprendimento sia fisso, definisci epsilon come una funzione costante.

Dimensione del lotto

Le dimensioni del batch determinano quanti esempi vengono visualizzati prima di effettuare un aggiornamento del peso. Più è basso, più rumoroso sarà il segnale di allenamento, più è alto, più tempo ci vorrà per calcolare il gradiente per ogni passo.

Citazioni e ulteriori letture:

— sabalaba
fonte

For simplicity we can assume that D is evenly divisible by B. Non vuoi dire che T dovrebbe essere uniformemente divisibile per B?

— Antoine,

e per rispondere effettivamente alla domanda del PO, è possibile aggiungere

B is typically chosen between 1 and a few hundreds, e.g. B = 32 is a good default value, with values above 10 taking advantage of the speed-up of matrix-matrix products over matrix-vector products.

(dal documento di Bengio del 2012)

— Antoine,

@sabalaba Bella risposta. Ma non è che nell'equazione "Di seguito è riportato un algoritmo iterativo per SGD con epoche M", aggiorneremo il peso dopo aver eseguito ogni mini-batch. In altre parole, non dovrebbe esserci un altro anello (sopra i mini lotti C) all'interno del ciclo sopra l'epoca, cioè mentre t <M

— Kaushik Acharya,

In statistica, un campione è costituito da più osservazioni. Pertanto, la dimensione del campione è interpretata correttamente dagli statistici. Nell'informatica (in particolare nell'apprendimento automatico) un campione è una singola osservazione e un lotto è una raccolta di campioni. Potrebbe essere un po 'confuso. Un campione per gli statistici è un lotto per i data scientist;) Fonte: en.wikipedia.org/wiki/Sample_size_determination

— Oleg Melnikov,

"Il parametro della dimensione del batch è solo uno degli iperparametri che intendi ottimizzare." L'esecuzione di più modelli di tuning non vanterebbe in primo luogo l'intero scopo di SGD? Penso che l'OP chieda una regola empirica per la dimensione del campione. Se i tuoi dati contengono record e variabili, qual è la dimensione del campione adatta per calcolare adeguatamente il gradiente?

n

$n$

m

$m$

— RobertF,