Ho letto di SVM e ho appreso che stanno risolvendo un problema di ottimizzazione e l'idea del margine massimo era molto ragionevole.
Ora, usando i kernel, riescono a trovare anche i confini di separazione non lineari, il che era grandioso.
Finora, non ho davvero idea di come SVM (una macchina speciale del kernel) e macchine del kernel siano correlate alle reti neurali?
Considera i commenti di Yann Lecun => qui :
kernel methods were a form of glorified template matching
e anche qui :
Ad esempio, alcune persone sono state abbagliate dai metodi del kernel a causa della simpatica matematica che ne consegue. Ma, come ho detto in passato, alla fine, le macchine del kernel sono reti poco profonde che eseguono una "corrispondenza dei template glorificata". Non c'è nulla di sbagliato in questo (SVM è un ottimo metodo), ma ha enormi limiti di cui dovremmo essere tutti consapevoli.
Quindi le mie domande sono:
- In che modo SVM è collegato alla rete neurale? Come è una rete superficiale?
- SVM risolve un problema di ottimizzazione con una funzione obiettivo ben definita, come sta facendo la corrispondenza del modello? Qual è il modello qui a cui è associato un input?
Immagino che questi commenti abbiano bisogno di una comprensione approfondita di spazi ad alta dimensione, reti neurali e macchine del kernel, ma finora ho provato e non sono riuscito a cogliere la logica dietro di esso. Ma è sicuramente interessante notare le connessioni tra due tecniche ml molto diverse.
EDIT: Penso che comprendere le SVM da una prospettiva neurale sarebbe grandioso. Sto cercando una risposta supportata dalla matematica completa alle due domande precedenti, in modo da capire davvero il legame tra SVM e reti neurali, sia nel caso di SVM lineari che di SVM con il trucco del kernel.