26

Supponiamo di voler fare una classificazione binaria (qualcosa appartiene alla classe A o alla classe B). Esistono alcune possibilità per farlo nel livello di output di una rete neurale:

Usa 1 nodo di output. L'uscita 0 (<0,5) è considerata in classe A e 1 (> = 0,5) è considerata in classe B (in caso di sigmoide)
Utilizzare 2 nodi di output. L'input appartiene alla classe del nodo con il valore / probabilità più alto (argmax).

Ci sono documenti scritti che (anche) discutono di questo? Quali sono le parole chiave specifiche su cui cercare?

Questa domanda è già stata posta in precedenza su questo sito, ad es. Vedere questo link senza risposte reali. Ho bisogno di fare una scelta (tesi di laurea), quindi voglio ottenere informazioni sui pro / contro / limiti di ogni soluzione.

machine-learning classification neural-networks

— Roberto
fonte

Penso che l'OP della domanda collegata abbia un buon punto, l'unica differenza è che la scelta 2 ha un numero maggiore di parametri, è più flessibile ma più incline a un adattamento eccessivo.

— dontloo,

1

In Udacity ML Nanodegree ho appreso che è meglio usare un nodo di output se il risultato si esclude a vicenda semplicemente perché la rete ha meno errori che può fare. Penso che non ci siano professionisti nell'usare 2 nodi di output in quel caso, ma non ho prove scientifiche per questo

— CodingYourLife

25

Nel secondo caso probabilmente stai scrivendo della funzione di attivazione di softmax. Se questo è vero, il sigmoid è solo un caso speciale della funzione softmax. È facile da mostrare.

y = \frac{1}{1 + e^{- X}} = \frac{1}{1 + \frac{1}{e^{X}}} = \frac{1}{\frac{e^{X} + 1}{e^{X}}} = \frac{e^{X}}{1 + e^{X}} = \frac{e^{X}}{e^{0} + e^{X}}

$y = \frac{1}{1 + e ^ {-x}} = \frac{1}{1 + \frac{1}{e ^ x}} = \frac{1}{\frac{e ^ x + 1}{e ^ x}} = \frac{e ^ x}{1 + e ^ x} = \frac{e ^ x}{e ^ 0 + e ^ x}$

Come vedi sigmoid è lo stesso di softmax. Puoi pensare di avere due uscite, ma una di esse ha tutti i pesi uguali a zero e quindi la sua uscita sarà sempre uguale a zero.

Quindi la scelta migliore per la classificazione binaria è quella di utilizzare un'unità di output con sigmoid invece di softmax con due unità di output, perché si aggiornerà più velocemente.

— itdxer
fonte

Quando dici che uno di loro ha tutti i pesi zero, vuoi dire che il modello non ha nemmeno preso in considerazione una classe durante l'allenamento? In pratica, possiamo davvero addestrare questo classificatore binario con una sola classe di dati di addestramento?

— deadcode

x > 0

$x > 0$

x < 0

$x < 0$

x

$x$

0

$0$

1

Nota che ci sono soluzioni degenerate del modulo exp(x+alpha) / (exp(alpha) + exp(x+alpha))- in realtà un numero infinito di esse - che producono tutte lo stesso risultato di classificazione di quello annotato con pesi tutti 0. I pesi probabilmente non si alleneranno per essere tutti zero, ma si alleneranno invece per essere degeneri con la soluzione che ha tutti i pesi 0. Evita le soluzioni degenerate (inutili e dispendiose) usando solo un neurone in uscita, a quanto pare.

— Dan Nissenbaum il

2

Gli algoritmi di machine learning come i classificatori modellano statisticamente i dati di input, qui, determinando le probabilità di input appartenenti a diverse categorie. Per un numero arbitrario di classi, normalmente un modello softmax viene aggiunto al modello in modo che gli output abbiano proprietà probabilistiche in base alla progettazione:

\vec{y} = SoftMax (\vec{un'}) \equiv \frac{1}{\underset{io}{Σ} e^{- {un'}_{io}}} \times [e^{- {un'}_{1}}, e^{- {un'}_{2}}, . . ., e^{- {un'}_{n}}]

$\vec{y} = \text{softmax}(\vec{a}) \equiv \frac{1}{\sum_i{ e^{-a_i} }} \times [e^{-a_1}, e^{-a_2}, ...,e^{-a_n}]$

0 \leq y_{io} \leq 1 per tutti io

$0 \le y_i \le 1 \text{ for all i}$

y_{1} + y_{2} + . . . + y_{n} = 1

$y_1 + y_2 + ... + y_n = 1$

$a$

Questo è perfettamente valido per due classi, tuttavia, si può anche usare un neurone (invece di due) dato che il suo output soddisfa:

0 \leq y \leq 1 per tutti gli ingressi.

$0 \le y \le 1 \text{ for all inputs.}$

a

$a$

y

$y$

sigma (un') \equiv σ (un') \equiv \frac{1}{1 + e^{- un'}}

$\text{sigmoid}(a) \equiv \sigma(a) \equiv \frac{1}{1+e^{-a}}$

proprietà matematiche utili (differenziazione, essendo compreso tra 0 e 1, ecc.), efficienza computazionale e avente la giusta pendenza tale che l'aggiornamento dei pesi della rete avrebbe una piccola ma misurabile variazione nell'output a fini di ottimizzazione.

Conclusione

Non sono sicuro se il ragionamento di @ itdxer che mostra softmax e sigmoid sia equivalente se valido, ma ha ragione a scegliere 1 neurone in contrasto con 2 neuroni per i classificatori binari poiché sono necessari meno parametri e calcolo. Sono stato anche criticato per l'uso di due neuroni per un classificatore binario poiché "è superfluo".

— Miladiouss
fonte

Rete neurale: per la classificazione binaria utilizzare 1 o 2 neuroni in uscita?

Conclusione