NeuralNetwork a strato singolo con attivazione ReLU pari a SVM?


10

Supponiamo che io abbia una semplice rete neurale a singolo strato, con n input e un singolo output (compito di classificazione binaria). Se imposto la funzione di attivazione nel nodo di output come funzione sigmoide, il risultato è un classificatore di regressione logistica.

In questo stesso scenario, se cambio l'attivazione dell'output in ReLU (unità lineare rettificata), la struttura risultante è uguale o simile a un SVM?

Se no perché?


hai qualche ipotesi sul perché potrebbe essere così? il motivo per cui un singolo perctron = logistico è esattamente a causa dell'attivazione - sono essenzialmente lo stesso modello, matematicamente (anche se forse allenati in modo diverso) - pesi lineari + un sigmoide applicato alla moltiplicazione della matrice. Gli SVM funzionano in modo molto diverso - cercano la linea migliore per separare i dati - sono più geometrici di "pesanti" / "matrixy". Per me, non c'è nulla in ReLU che dovrebbe farmi pensare = ah, sono gli stessi di un SVM. (svm logistico e lineare tende ad esibirsi in modo molto simile però)
metjush

l'obiettivo del margine massimo di un svm e la funzione di attivazione relu sembrano uguali. Da qui la domanda.
d.C.

"Gli SVM funzionano in modo abbastanza diverso - cercano la linea migliore per separare i dati - sono più geometrici di" pesanti "/" matrixy ". Questo è un po 'ondulato - TUTTI i classificatori lineari cercano la linea migliore per separare i dati inclusa la regressione logistica e perceptron.
aD

Risposte:


11

Forse ciò che ti fa pensare a ReLU è la perdita della cerniera degli SVM, ma la perdita non limita la funzione di attivazione dell'uscita a non negativa (ReLU).E=max(1ty,0)

Affinché la perdita di rete sia nella stessa forma degli SVM, possiamo semplicemente rimuovere qualsiasi funzione di attivazione non lineare dallo strato di output e usare la perdita di cerniera per la backpropagation.

Inoltre, se sostituiamo la perdita della cerniera con (che sembra una versione regolare della perdita della cerniera), faremo la regressione logistica come tipiche reti sigmoid + cross-entropia. Si può pensare di spostare la funzione sigmoide dal livello di output alla perdita.E=ln(1+exp(ty))

Quindi, in termini di funzioni di perdita, SVM e regressione logistica sono abbastanza vicini, sebbene gli SVM utilizzino un algoritmo molto diverso per la formazione e l'inferenza basato sui vettori di supporto.

C'è una bella discussione sulla relazione tra SVM e regressione logistica nella sezione 7.1.2 del libro Pattern Recognition and Machine Learning .

inserisci qui la descrizione dell'immagine


grazie per aver indicato il libro. Quindi ho la sensazione che oltre alle funzioni di attivazione, la vera differenza sia negli algoritmi di ottimizzazione utilizzati. Per LR possiamo usare la semplice discesa gradiente senza vincoli, mentre in SVM risolviamo tipicamente un'ottimizzazione vincolata.
AD
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.