Perché i pesi iniziali nella rete neurale sono randomizzati?


10

Questo potrebbe sembrare sciocco per qualcuno che ha molta esperienza con le reti neurali, ma mi dà fastidio ...

Voglio dire, la randomizzazione dei pesi iniziali potrebbe darti risultati migliori che sarebbero un po 'più vicini a come dovrebbe essere la rete allenata, ma potrebbe anche essere l'esatto opposto di quello che dovrebbe essere, mentre 0,5 o qualche altra media per la gamma di peso ragionevole il valore sembrerebbe una buona impostazione predefinita ...

Perché i pesi iniziali per i neuroni vengono randomizzati anziché 0,5 per tutti?


Qual è stato il problema con la mia modifica? Pensi di non poter essere migliorato?
nbro

@nbro aggiunge più domande, il che lo rende troppo ampio ...
Matas Vaitkevicius

Quali domande ho aggiunto che non sono presenti nel tuo post? Ho appena riformulato come domande quelle che hai affermato come ipotesi.
nbro

A proposito, la tua formulazione non è nemmeno corretta. I pesi non vengono randomizzati, ma vengono inizializzati in modo casuale. Questi sono due concetti diversi e intendevi il secondo. La mia modifica doveva anche migliorare la formulazione.
nbro

@nbro Ciao, senti che non ero grato, e di certo non volevo offenderti. Sono anche cattivo nel porre domande, formulazione e tutto il resto. Quindi mi dispiace se ti ho offeso.
Matas Vaitkevicius,

Risposte:


6

I pesi iniziali in una rete neurale sono inizializzati in modo casuale perché i metodi basati sul gradiente comunemente usati per allenare le reti neurali non funzionano bene quando tutti i pesi sono inizializzati allo stesso valore. Sebbene non tutti i metodi per addestrare le reti neurali siano basati sul gradiente, la maggior parte di essi lo è, ed è stato dimostrato in diversi casi che l'inizializzazione della rete neurale allo stesso valore fa sì che la rete impieghi molto più tempo a convergere su una soluzione ottimale. Inoltre, se vuoi riqualificare la tua rete neurale perché è rimasta bloccata in un minimo locale, rimarrà bloccata negli stessi minimi locali. Per i motivi di cui sopra, non impostiamo i pesi iniziali su un valore costante.

Riferimenti: Perché la backpropagation non funziona quando si inizializzano i pesi con lo stesso valore?


In effetti, si rompono se tutti i pesi sono uguali.
Quonux,

9

Non dovresti assegnare tutto a 0,5 perché avresti il ​​problema "Rompi simmetria".

http://www.deeplearningbook.org/contents/optimization.html

Forse l'unica proprietà nota con assoluta certezza è che i parametri iniziali devono " rompere la simmetria " tra unità diverse. Se due unità nascoste con la stessa funzione di attivazione sono collegate agli stessi ingressi, queste unità devono avere parametri iniziali diversi. Se hanno gli stessi parametri iniziali, un algoritmo di apprendimento deterministico applicato a un costo e un modello deterministici aggiornerà costantemente entrambe queste unità allo stesso modo. Anche se il modello o l'algoritmo di addestramento è in grado di utilizzare la stocastica per calcolare diversi aggiornamenti per unità diverse (ad esempio, se uno si allena con dropout), di solito è meglio inizializzare ciascuna unità per calcolare una funzione diversa da tutte le altre unità. Ciò può aiutare a garantire che nessun pattern di input venga perso nello spazio nullo della propagazione diretta e che non vengano persi pattern di gradiente nello spazio nullo della propagazione posteriore.


2

Questa è una domanda molto profonda. Recentemente ci sono state serie di articoli con prove di convergenza della discesa del gradiente per reti profonde iperparametrizzate (ad esempio, Discesa del gradiente trova i minimi globali delle reti neuronali profonde , una teoria della convergenza per l'apprendimento profondo tramite parametrizzazione eccessiva o discesa del gradiente stocastico ottimizza le profondità eccessivamente parametrizzate Reti ReLU ). Tutti loro dimostrano la prova della distribuzione casuale dei pesi gaussiana. L'importanza per le prove dipende da due fattori:

  1. I pesi casuali rendono la mappatura statisticamente compressiva ReLU (fino alla trasformazione lineare)

  2. I pesi casuali preservano la separazione degli input per qualsiasi distribuzione di input, ovvero se i campioni di input sono propagabili in rete distinguibili non li renderanno indistinguibili

Quelle proprietà molto difficili da riprodurre con matrici deterministiche e anche se sono riproducibili con matrici deterministiche lo spazio NULL (dominio degli esempi contraddittori) renderebbe probabilmente il metodo poco pratico e una conservazione più importante di tali proprietà durante la discesa del gradiente renderebbe probabilmente il metodo poco pratico. Ma nel complesso è molto difficile ma non impossibile e può giustificare alcune ricerche in quella direzione. In una situazione analoga, ci sono stati alcuni risultati per la proprietà isometria limitata per le matrici deterministiche nel rilevamento compresso .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.