La rete neurale (ad es. Rete neurale convoluzionale) può avere pesi negativi?


13

È possibile avere pesi negativi (dopo epoche sufficienti) per reti neurali convoluzionali profonde quando si utilizza ReLU per tutti i livelli di attivazione?


Non vedo alcun motivo per cui non possano essere negativi. C'è una ragione / osservazione particolare che hai in mente?
Sobi,

Sto solo immaginando il processo di SGD e penso se il peso negativo è comune e possibile.
RockTheStar,

Ci pensò perché il "peso" assomiglia alle sinapsi, i legami tra i neuroni, quindi come possiamo avere -2 sinapsi verso un neurone ?? Mi sono imbattuto qui dopo aver cercato la stessa identica cosa su google ... Immagino che potrebbe essere possibile comunque, potrebbe significare alla fine una sinapsi o un collegamento mancante e gli "hop" per raggiungere la b da un altro lato che viene sottratto dal calcolo, ma non ne sono proprio sicuro, sto solo pensando
prova il

Risposte:


10

Le Unità lineari rettificate (ReLU) rendono l' output dei neuroni solo non negativo. I parametri della rete, tuttavia, possono e diventeranno positivi o negativi a seconda dei dati di allenamento.

Ecco due motivi a cui riesco a pensare ora che giustifica (intuitivamente) il motivo per cui alcuni parametri diventerebbero negativi:

  1. la regolarizzazione dei parametri (ovvero il decadimento del peso); la variazione dei valori dei parametri rende possibile la previsione e se i parametri sono centrati attorno allo zero (cioè la loro media è vicina allo zero), allora la loro norma (che è un regolarizzatore standard) è bassa.2

  2. sebbene i gradienti dell'output di un layer rispetto ai parametri del layer dipendano dall'input al layer (che sono sempre positivi supponendo che il layer precedente passi i suoi output attraverso una ReLU), tuttavia, il gradiente dell'errore (che viene dagli strati più vicini agli strati di output finali) può essere positivo o negativo, rendendo possibile per SGD rendere negativi alcuni dei valori dei parametri dopo aver eseguito il passo gradiente successivo. Più specificamente, lascia che , O e w denotino input, output e parametri di un layer in una rete neurale. Inoltre, sia E l'ultimo errore della rete indotto da alcuni esempi di addestramento. Il gradiente dell'errore rispetto a w viene calcolato come IOwEw ; nota cheOk=O,k(vedi immagine sotto):Ew=(k=1KEOk)OkwOk=O,k

inserisci qui la descrizione dell'immagine


1

Immagina di avere pesi ottimali che sono tutti non negativi.

xi=xi{xi,y}


-3

A meno che non si utilizzi un'altra funzione di attivazione, ad esempio Leaky ReLU. I pesi rettificati degli strati dopo il primo sono non negativi indipendentemente da quante epoche nell'allenamento.


1
Grazie mille! Puoi spiegarci un po 'di più su come Leaky ReLU può portare a un peso negativo?
RockTheStar,

Sembra che l'affermazione non sia vera. Ho seguito corsi di formazione sulla rete attivata da ReLU, le matrici nella trasformazione affine ("Ws") e gli offset ("b's"), che presumo siano stati indicati in questa domanda come pesi, ottengono valori negativi.
li
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.