Rete neurale - significato dei pesi


Risposte:


6

I singoli pesi rappresentano la forza delle connessioni tra le unità. Se il peso dall'unità A all'unità B ha una grandezza maggiore (tutto il resto è uguale), significa che A ha una maggiore influenza su B (cioè per aumentare o diminuire il livello di attivazione di B).

Puoi anche pensare al set di pesi in entrata su un'unità come a misurare ciò che quell'unità "si preoccupa". Questo è più facile da vedere al primo livello. Supponiamo di avere una rete di elaborazione delle immagini. Le prime unità ricevono connessioni ponderate dai pixel di input. L'attivazione di ogni unità è una somma ponderata dei valori di intensità dei pixel, passati attraverso una funzione di attivazione. Poiché la funzione di attivazione è monotonica, l'attivazione di una determinata unità sarà maggiore quando i pixel di input sono simili ai pesi in entrata di tale unità (nel senso di avere un prodotto a punti grandi). Quindi, puoi pensare ai pesi come a un insieme di coefficienti di filtro, che definiscono una caratteristica dell'immagine. Per le unità di livello superiore (in una rete feedforward), gli input non provengono più da pixel, ma da unità di livello inferiore. Quindi, i pesi in entrata sono più simili a "

Non sono sicuro della tua fonte originale, ma se stavo parlando di "spazio di peso", mi riferirei all'insieme di tutti i possibili valori di tutti i pesi nella rete.


con riferimento alla tua risposta sopra, "l'attivazione di una data unità sarà maggiore quando i pixel di input sono simili ai pesi in entrata di quell'unità (nel senso di avere un grande punto prodotto)", potresti per favore approfondire questo. Significa che se gli ingressi sono simili ai pesi tra l'ingresso e l'unità nascosta, l'attivazione dell'unità nascosta sarà maggiore?
Ironluca,

1
Significa che l'attivazione dell'unità nascosta sarà maggiore quando il prodotto punto tra l'ingresso e i pesi dell'unità nascosta è maggiore. Si può pensare al prodotto punto come una misura relativa di somiglianza. Supponiamo di voler confrontare due vettori e (con la stessa norma) con un terzo vettore . è più simile a di se , nel senso che l'angolo tra e è minore di quello tra e . Dico parente perché dipende dalla norma. Vedi en.wikipedia.org/wiki/Cosine_distance .X1X2yX1yX2X1y>X2yX1yX2y
user20160,

6

Bene, dipende da un'architettura di rete e da un livello particolare. In generale, le NN non sono interpretabili, questo è il loro principale svantaggio nell'analisi dei dati commerciali (dove il tuo obiettivo è quello di scoprire approfondimenti fruibili dal tuo modello).

Ma adoro le reti convoluzionali, perché sono diverse! Sebbene i loro livelli superiori apprendano concetti molto astratti, utilizzabili per l'apprendimento e la classificazione del trasferimento, che non possono essere facilmente compresi, i loro livelli inferiori apprendono i filtri Gabor direttamente dai dati grezzi (e quindi sono interpretabili come tali filtri). Dai un'occhiata all'esempio di una lezione di Le Cun:

inserisci qui la descrizione dell'immagine

Inoltre, M. Zeiler ( pdf ) e molti altri ricercatori hanno inventato un metodo molto creativo per "comprendere" convnet e assicurarsi che abbia appreso qualcosa di utile chiamato reti deconvoluzionali , in cui "rintracciano" alcune convnet facendo passare in avanti immagini di input e ricordando quale i neuroni hanno avuto le più grandi attivazioni per cui le foto. Questo offre una straordinaria introspezione come questa (un paio di strati sono stati mostrati di seguito):

Introspezione di rete convoluzionale di M.Zeiler

Le immagini grigie sul lato sinistro sono attivazioni dei neuroni (maggiore è l'intensità, maggiore è l'attivazione) con immagini a colori sul lato destro. Vediamo che queste attivazioni sono rappresentazioni scheletriche di immagini reali, cioè che le attivazioni non sono casuali. Quindi, abbiamo una solida speranza, che la nostra convnet abbia davvero imparato qualcosa di utile e avrà una discreta generalizzazione in foto invisibili.


1

Penso che tu stia provando troppo sul modello che non ha troppa interpretabilità. La rete neurale (NN) è uno dei modelli di scatola nera che ti darà prestazioni migliori, ma è difficile capire cosa stesse succedendo all'interno. Inoltre, è possibile avere migliaia persino milioni di pesi all'interno di NN.

NN è una funzione non convessa non lineare molto grande che può avere una grande quantità di minimi locali. Se lo alleni più volte, con un punto di partenza diverso, i pesi saranno diversi. Puoi trovare alcuni modi per visualizzare i pesi interni, ma non ti dà troppe intuizioni.

Ecco un esempio sulla visualizzazione NN per i dati MNIST . La figura in alto a destra (riprodotta di seguito) mostra le caratteristiche trasformate dopo aver applicato i pesi.

inserisci qui la descrizione dell'immagine


-1

I pesi semplici sono probabilità.

Con quale probabilità una connessione darà la risposta corretta o sbagliata. Anche risultati errati nelle reti multistrato possono essere utili. Dire che qualcosa non è quello ..


curioso chi mi ha declassato, le reti neurali hanno origine nelle statistiche. impara la tua storia ..
user3800527

2
Non ho votato a fondo, ma la risposta onestamente non sembra molto utile. Sì, alcune architetture di rete (come le macchine Boltzmann o le reti Hopfield) sono ispirate dalla meccanica statistica, ma anche lì i pesi non sono probabilità, nel senso di "limitare la frequenza relativa di alcuni eventi". I pesi possono anche essere negativi o più grandi di uno, le probabilità no.
Nikie,

in cui il segno riflette la risposta, il numero la probabilità di esso.
user3800527,

Questo è vero solo per le architetture limitate e i tipi di etichette di formazione da imparare.
Emil,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.