In alcuni tutorial ho scoperto che l'inizializzazione del peso "Xavier" (articolo: comprendere la difficoltà di addestrare reti neurali profonde ) è un modo efficace per inizializzare i pesi delle reti neurali.
Per i livelli completamente collegati c'era una regola empirica in quei tutorial:
dove è la varianza dei pesi per uno strato, inizializzato con una distribuzione normale e , è la quantità di neuroni nel genitore e nello strato corrente.
Esistono regole empiriche simili per i livelli convoluzionali?
Sto lottando per capire quale sarebbe meglio inizializzare i pesi di uno strato convoluzionale. Ad esempio in un livello in cui la forma dei pesi è (5, 5, 3, 8)
, quindi la dimensione del kernel è 5x5
, filtrare tre canali di input (input RGB) e creare 8
mappe di funzionalità ... sarebbe 3
considerata la quantità di neuroni di input? O meglio 75 = 5*5*3
, perché gli input sono 5x5
patch per ogni canale di colore?
Accetterei entrambi, una risposta specifica che chiarisca il problema o una risposta più "generica" che spieghi il processo generale di ricerca della corretta inizializzazione dei pesi e preferibilmente il collegamento delle fonti.