Come funziona esattamente DropOut con i livelli convoluzionali?

Il dropout ( carta , spiegazione ) imposta l'output di alcuni neuroni su zero. Quindi, per un MLP, potresti avere la seguente architettura per il set di dati di fiori di Iris :

4 : 50 (tanh) : dropout (0.5) : 20 (tanh) : 3 (softmax)

Funzionerebbe così:

s o f t m a x (W_{3} \cdot \tanh (W_{2} \cdot mask (D, \tanh (W_{1} \cdot i n p u t_v e c t o r)))

$softmax(W_3 \cdot \tanh(W_2 \cdot \text{mask}(D, \tanh(W_1 \cdot input\_vector)))$

con , , , , (ignorando i pregiudizi per motivi di semplicità). $input\_vector \in \mathbb{R}^{4 \times 1}$ $W_1 \in \mathbb{R}^{50 \times 4}$ $D \in \{0, 1\}^{50 \times 1}$ $W_2 \in \mathbb{R}^{20 \times 50}$ $W_3 \in \mathbb{R}^{20 \times 3}$

Con e $D = (d)_{ij}$

d_{i j} \sim B (1, p = 0.5)

$d_{ij} \sim B(1, p=0.5)$

dove l'operazione moltiplica puntuale con (vedi prodotto Hadamard ). $\text{mask}(D, M)$ $D$ $M$

Quindi campioniamo solo la matrice ogni volta e quindi il dropout diventa una moltiplicazione di un nodo con 0. $D$

Ma per le CNN, non mi è chiaro cosa venga abbandonato esattamente. Vedo tre possibilità:

Eliminazione di mappe di funzionalità complete (da cui un kernel)
Eliminazione di un elemento di un kernel (sostituzione di un elemento di un kernel con 0)
Eliminazione di un elemento di una mappa delle caratteristiche

Aggiungi un riferimento / preventivo alla tua risposta.

I miei pensieri

Penso che Lasagne lo faccia (3) (vedi codice ). Questo potrebbe essere il più semplice da implementare. Tuttavia, più vicino all'idea originale potrebbe essere (1).

Sembra essere simile per Caffe (vedi codice ). Per tensorflow, l'utente deve decidere ( codice - non sono sicuro di cosa accada quando noise_shape=Noneviene passato).

Come dovrebbe essere

(2) e (3) non hanno molto senso in quanto indurrebbe la rete ad aggiungere invarianza alle posizioni spaziali, il che probabilmente non è desiderato. Quindi (1) è l'unica variante che ha senso. Ma non sono sicuro di cosa succede se si utilizza l'implementazione predefinita.

dropout

— Martin Thoma
fonte

Ho posto la domanda anche nel gruppo utenti Lasagne .

— Martin Thoma,

Un amico ha notato che (2) e (3) potrebbero non essere una buona idea perché potrebbero costringere la rete a diffondere informazioni nello spazio.

— Martin Thoma

Come accennato, la matrice di maschere viene campionata e moltiplicata con le attivazioni nella mappa delle caratteristiche al livello per produrre attivazioni modificate abbandonate che vengono quindi convolte con il filtro al livello successivo . (3) $l$ $W^{(l+1)}$

Per maggiori dettagli, penso che la sezione 3 di questo documento potrebbe aiutarti: Max pooling e dropout convoluzionale . In particolare 3.2.

Quando si esegue il test, si utilizzano tutti i nodi della rete ma con i pesi del filtro ridimensionati in base alla probabilità di mantenimento, come spiegato nel documento.

Sentiti libero di affinare o correggere la mia risposta.

Spero che questo aiuti almeno un po '.

— Leonard Aukea
fonte