cosa rende le reti neurali un modello di classificazione non lineare?

18

Sto cercando di capire il significato matematico dei modelli di classificazione non lineari:

Ho appena letto un articolo che parla delle reti neurali come modello di classificazione non lineare.

Ma mi rendo conto che:

Il primo strato:

$h_1=x_1∗w_{x1h1}+x_2∗w_{x1h2}$

$h_2=x_1∗w_{x2h1}+x_2∗w_{x2h2}$

Il livello successivo

$y=b∗w_{by}+h_1∗w_{h1y}+h_2∗w_{h2y}$

Può essere semplificato a

$=b′+(x_1∗w_{x1h1}+x_2∗w_{x1h2})∗w_{h1y}+(x_1∗w_{x2h1}+x_2∗w_{x2h2})∗w_{h2y}$

$=b′+x_1(w_{h1y}∗w_{x1h1}+w_{x2h1}∗w_{h2y})+x_2(w_{h1y}∗w_{x1h1}+w_{x2h2}∗w_{h2y})$

Una rete neurale a due strati è solo una semplice regressione lineare

$=b^′+x_1∗W_1^′+x_2∗W_2^′$

Questo può essere mostrato a qualsiasi numero di strati, poiché la combinazione lineare di qualsiasi numero di pesi è di nuovo lineare.

Cosa rende davvero una rete neurale un modello di classificazione non lineare?
In che modo la funzione di attivazione influirà sulla non linearità del modello?
Mi puoi spiegare?

neural-networks nonlinear-regression nonlinear

— Alvaro Joao
fonte

18

Penso che dimentichi la funzione di attivazione nei nodi nella rete neurale, che non è lineare e renderà l'intero modello non lineare.

Nella tua formula non è del tutto corretto, dove,

h_{1} \neq w_{1} x_{1} + w_{2} x_{2}

$h_1 \neq w_1x_1+w_2x_2$

ma

h_{1} = sigmoid (w_{1} x_{1} + w_{2} x_{2})

$h_1 = \text{sigmoid}(w_1x_1+w_2x_2)$

dove sigmoid funziona in questo modo, $\text{sigmoid}(x)=\frac 1 {1+e^{-x}}$

Facciamo un esempio numerico per spiegare l'impatto della funzione , supponiamo di avere quindi . D'altra parte, supponiamo di avere , ed è quasi uguale a , che non è lineare. $w_1x_1+w_2x_2=4$ $\text{sigmoid}(4)=0.99$ $w_1x_1+w_2x_2=4000$ $\text{sigmoid}(4000)=1$ $\text{sigmoid}(4)$

Inoltre, penso che la diapositiva 14 di questo tutorial possa mostrare dove hai sbagliato esattamente. Per , non otuput non è -7,65, ma $H_1$ $\text{sigmoid}(-7.65)$

— Haitao Du
fonte

1

In che modo la funzione di attivazione influirà sulla non linearità del modello? Mi puoi spiegare?

— Alvaro Joao,

3

Hai ragione nel dire che più livelli lineari possono essere equivalenti a un singolo livello lineare. Come hanno detto le altre risposte, una funzione di attivazione non lineare consente la classificazione non lineare. Dire che un classificatore è non lineare significa che ha un limite di decisione non lineare. Il confine decisionale è una superficie che separa le classi; il classificatore pronosticherà una classe per tutti i punti su un lato del confine decisionale e un'altra classe per tutti i punti sull'altro lato.

Consideriamo una situazione comune: eseguire la classificazione binaria con una rete contenente più strati di unità nascoste non lineari e un'unità di uscita con una funzione di attivazione sigmoidale. fornisce l'output, è un vettore di attivazioni per l'ultimo strato nascosto, è un vettore dei loro pesi sull'unità di output e è il bias dell'unità di output. L'output è: $y$ $h$ $w$ $b$

y = σ (h w + b)

$y = \sigma(hw + b)$

dove è la funzione sigmoid logistica. L'output viene interpretato come la probabilità che la classe sia . La classe prevista è: $\sigma$ $1$ $c$

c = {\begin{array}{cl} 0 & y \leq 0.5 \\ 1 & y > 0.5 \end{array}

$c = \left \{ \begin{array}{cl} 0 & y \le 0.5 \\ 1 & y > 0.5 \\ \end{array} \right .$

Consideriamo la regola di classificazione rispetto alle attivazioni di unità nascoste. Possiamo vedere che le attivazioni di unità nascoste sono proiettate su una linea . La regola per assegnare una classe è una funzione di , che è monotonicamente correlata alla proiezione lungo la linea. La regola di classificazione equivale quindi a determinare se la proiezione lungo la linea è minore o maggiore di qualche soglia (in questo caso, la soglia è data dal negativo del bias). Ciò significa che il limite di decisione è un iperpiano ortogonale alla linea e interseca la linea in un punto corrispondente a quella soglia. $hW + b$ $y$

Ho detto prima che il limite di decisione non è lineare, ma un iperpiano è la definizione stessa di un confine lineare. Ma abbiamo considerato il confine come una funzione delle unità nascoste appena prima dell'uscita. Le attivazioni di unità nascoste sono una funzione non lineare degli input originali, a causa dei precedenti livelli nascosti e delle loro funzioni di attivazione non lineari. Un modo di pensare alla rete è che mappa i dati in modo non lineare in uno spazio di funzionalità. Le coordinate in questo spazio sono date dalle attivazioni delle ultime unità nascoste. La rete esegue quindi una classificazione lineare in questo spazio (regressione logistica, in questo caso). Possiamo anche pensare al limite decisionale in funzione degli input originali. Questa funzione sarà non lineare, come conseguenza della mappatura non lineare dagli input alle attivazioni di unità nascoste.

Questo post sul blog mostra alcune belle figure e animazioni di questo processo.

— user20160
fonte

1

La non linearità deriva dalla funzione di attivazione sigmoidea, 1 / (1 + e ^ x), dove x è la combinazione lineare di predittori e pesi a cui si fa riferimento nella domanda.

A proposito, i limiti di questa attivazione sono zero e uno perché o il denominatore diventa così grande che la frazione si avvicina a zero, o e ^ x diventa così piccolo che la frazione si avvicina a 1/1.

— Ryan Zotti
fonte