Importanza del nodo di polarizzazione nelle reti neurali


19

Sono curioso di sapere quanto sia importante il nodo di polarizzazione per l'efficacia delle moderne reti neurali. Posso facilmente capire che può essere importante in una rete poco profonda con solo poche variabili di input. Tuttavia, le moderne reti neurali come l'apprendimento profondo spesso hanno un gran numero di variabili di input per decidere se un determinato neurone viene attivato. La loro semplice rimozione, ad esempio, da LeNet5 o ImageNet avrebbe alcun impatto reale?


@gung - Ho visto che hai modificato il titolo per usare la frase "nodo bias". Sono curioso di sapere perché preferisci quel titolo? Non ho mai sentito quell'uso prima. Inoltre, sembra confuso usare la parola "nodo" quando il bias non è un nodo separato in una rete.
pir

2
Se non ti piace, puoi ripristinare la modifica con le mie scuse. Ho sempre pensato che il nome fosse abbastanza standard, anche se non gioco alle w / ANN da anni e alcuni lo chiamano invece "neurone bias". FWIW, "bias" è un po 'ambiguo in statistica / ML; si riferisce più comunemente a uno stimatore la cui distribuzione di campionamento non è centrata sul valore reale del parametro o su una funzione predittiva / valore predetto che differisce dalla funzione / media vera, ecc., mentre il nodo di polarizzazione è una parte specifica di un ANN.
gung - Ripristina Monica

2
È un nodo reale - almeno nel senso che uno di essi si trova - nella rete. Ad esempio, vedere i nodi neri in questa immagine .
gung - Ripristina Monica

Va bene, questo ha senso - è vero che il "bias" è piuttosto ambiguo. Grazie per la spiegazione.
pir

1
Per i neuroni l'unità di polarizzazione sembra sparare spontaneamente, questo accade in natura.
user3927612,

Risposte:


15

La rimozione del bias influirà sicuramente sulle prestazioni ed ecco perché ...

Ogni neurone è come una semplice regressione logistica e tu hai . I valori di input vengono moltiplicati per i pesi e la polarizzazione influisce sul livello iniziale di schiacciamento nella funzione sigmoide (tanh ecc.), Che risulta nella non linearità desiderata.y=σ(WX+B)

Ad esempio, supponiamo che desideri che un neurone si quando tutti i pixel di input sono neri . Se non vi è alcun pregiudizio, indipendentemente dal peso che hai , data l'equazione il neurone sempre .y1X0Wy=σ(WX)y0.5

Pertanto, rimuovendo i termini di polarizzazione si ridurrebbe sostanzialmente le prestazioni della rete neurale.


2
Grazie, ha un senso. Immagino che anche se la maggior parte delle reti moderne utilizza ReLU come funzione di attivazione (vedi ad es. Papers.nips.cc/paper/4824-imagenet ), ciò potrebbe essere rilevante se la rete dovesse attivarsi quando tutti i pixel di input sono neri. ReLU è definito come f (x) = max (0, x).
pir

Esattamente! è lo stesso caso ...
Yannis Assael,

4
La trama raffigura le attivazioni di un neurone sigmoideo dato l'input. Ora supponiamo che vogliamo che un neurone si quando tutti i pixel sono neri . Ciò sarebbe impossibile senza il termine di polarizzazione e quando verrà sempre . y1X0X0y0.5
Yannis Assael,

2
Mentre sono d'accordo con la teoria, vale la pena sottolineare che con reti moderne di grandi dimensioni le possibilità di ottenere un input tutto zero sono trascurabili. Ciò si basa anche sul presupposto che una rete vorrebbe sparare un 1 - le reti molto profonde probabilmente non si preoccuperanno dell'uscita del singolo neurone - questo è in parte il motivo per cui l' abbandono è così popolare per regolarizzare le reti.
Max Gordon,

2
@MaxGordon ha ragione. Questa risposta non si applica a questa domanda. Prova a rimuovere la distorsione da una grande rete e vedrai che fa davvero poca differenza.
Neil G,

10

Non sono d'accordo con l'altra risposta nel particolare contesto della tua domanda. Sì, un nodo di polarizzazione è importante in una piccola rete. Tuttavia, in un modello di grandi dimensioni, la rimozione degli input di polarizzazione fa pochissima differenza perché ogni nodo può creare un nodo di polarizzazione dall'attivazione media di tutti i suoi input, che per la legge di grandi numeri sarà all'incirca normale. Al primo livello, la possibilità che ciò accada dipende dalla distribuzione dell'input. Per MNIST, ad esempio, l'attivazione media dell'ingresso è approssimativamente costante.

Su una piccola rete, ovviamente, è necessario un input di polarizzazione, ma su una grande rete, rimuoverlo non fa quasi alcuna differenza. (Ma perché lo rimuoveresti?)


3

Commenterei la risposta di @ NeilG se avessi abbastanza reputazione, ma purtroppo ...

Non sono d'accordo con te, Neil, su questo. Tu dici:

... l'attivazione media di tutti i suoi input, che secondo la legge di grandi numeri sarà all'incirca normale.

Direi contro questo, e direi che la legge del gran numero richiede che tutte le osservazioni siano indipendenti l'una dall'altra. Questo non è affatto il caso di qualcosa di simile alle reti neurali. Anche se ogni attivazione è normalmente distribuita, se si osserva un valore di input come eccezionalmente alto, cambia la probabilità di tutti gli altri input. Pertanto, le "osservazioni", in questo caso, gli input, non sono indipendenti e non si applica la legge dei grandi numeri.

A meno che non capisca la tua risposta.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.