In che modo gli SVM = corrispondenza dei modelli?


10

Ho letto di SVM e ho appreso che stanno risolvendo un problema di ottimizzazione e l'idea del margine massimo era molto ragionevole.

Ora, usando i kernel, riescono a trovare anche i confini di separazione non lineari, il che era grandioso.

Finora, non ho davvero idea di come SVM (una macchina speciale del kernel) e macchine del kernel siano correlate alle reti neurali?

Considera i commenti di Yann Lecun => qui :

kernel methods were a form of glorified template matching

e anche qui :

Ad esempio, alcune persone sono state abbagliate dai metodi del kernel a causa della simpatica matematica che ne consegue. Ma, come ho detto in passato, alla fine, le macchine del kernel sono reti poco profonde che eseguono una "corrispondenza dei template glorificata". Non c'è nulla di sbagliato in questo (SVM è un ottimo metodo), ma ha enormi limiti di cui dovremmo essere tutti consapevoli.

Quindi le mie domande sono:

  1. In che modo SVM è collegato alla rete neurale? Come è una rete superficiale?
  2. SVM risolve un problema di ottimizzazione con una funzione obiettivo ben definita, come sta facendo la corrispondenza del modello? Qual è il modello qui a cui è associato un input?

Immagino che questi commenti abbiano bisogno di una comprensione approfondita di spazi ad alta dimensione, reti neurali e macchine del kernel, ma finora ho provato e non sono riuscito a cogliere la logica dietro di esso. Ma è sicuramente interessante notare le connessioni tra due tecniche ml molto diverse.

EDIT: Penso che comprendere le SVM da una prospettiva neurale sarebbe grandioso. Sto cercando una risposta supportata dalla matematica completa alle due domande precedenti, in modo da capire davvero il legame tra SVM e reti neurali, sia nel caso di SVM lineari che di SVM con il trucco del kernel.


Gli SVM sono abbastanza facili e veloci da addestrare dato un kernel appropriato. Alcune attività non richiedono una rete neurale profonda.
Vladislavs Dovgalecs,

@xeon ciao, puoi dare un'occhiata alla risposta, suppongo che abbia bisogno di miglioramenti. Grazie.
Rafael

Risposte:


7
  1. In che modo SVM è collegato alla rete neurale? Come è una rete superficiale?

SVM è una rete neurale a strato singolo con perdita della cerniera come funzione di perdita e attivazione esclusivamente lineare. Il concetto è stato accennato nei thread precedenti, come questo: NeuralNetwork a strato singolo con attivazione RelU uguale a SVM?

  1. SVM risolve un problema di ottimizzazione con una funzione obiettivo ben definita, come sta facendo la corrispondenza del modello? Qual è il modello qui a cui è associato un input?

Gram Matrix (Kernel Matrix, se preferisci) è una misura di somiglianza. Poiché SVM consente soluzioni sparse, la previsione diventa una questione di confronto del campione con i modelli, ovvero i vettori di supporto.


grazie per la risposta, per favore spiegami un po 'di più con qualche matematica preferibilmente. Sarebbe davvero fantastico :)
Rafael,

Comprendo più o meno la cosa della corrispondenza del modello, ma non ho ottenuto l'affermazione: poiché SVM consente soluzioni sparse .. cosa hanno le soluzioni sparse per fare qualcosa qui? La previsione per definizione è fatta da una pesata somiglianza con i modelli, quindi non capisco da dove viene la scarsità. Inoltre, aggiungere alcune righe relative alla funzione di attivazione della perdita della cerniera. Grazie mille :)
Rafael
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.