Qual è la relazione tra un SVM e la perdita della cerniera?


9

Io e il mio collega stiamo cercando di avvolgere la nostra testa attorno alla differenza tra regressione logistica e SVM. Chiaramente stanno ottimizzando diverse funzioni oggettive. Un SVM è semplice come dire che è un classificatore discriminante che ottimizza semplicemente la perdita della cerniera? O è più complesso di così? Come entrano in gioco i vettori di supporto? E le variabili lente? Perché non puoi avere SVM profonde come non puoi avere una rete neurale profonda con funzioni di attivazione sigmoide?


Ho avuto una risposta ragionevole qui: stats.stackexchange.com/questions/187186/…
Simon

1
Sto votando per chiudere questa domanda perché è un cross-posting: stats.stackexchange.com/q/187186/25741
Martin Thoma,

Risposte:


6

Sono entrambi modelli discriminatori, sì. La funzione di perdita della regressione logistica è concettualmente una funzione di tutti i punti. I punti correttamente classificati aggiungono molto poco alla funzione di perdita, aggiungendo di più se si avvicinano al limite. I punti vicino al confine sono quindi più importanti per la perdita e quindi decidono quanto è buono il confine.

SVM utilizza una perdita di cerniera, che concettualmente pone l'accento sui punti di confine. Qualcosa di più lontano dei punti più vicini non contribuisce alla perdita a causa della "cerniera" (il massimo) nella funzione. Quei punti più vicini sono i vettori di supporto, semplicemente. Pertanto, in realtà si riduce a scegliere un confine che crea il margine più grande - distanza dal punto più vicino. La teoria è che il caso limite è tutto ciò che conta davvero per la generalizzazione.

Il rovescio della medaglia è che la perdita della cerniera non è differenziabile, ma ciò significa solo che ci vuole più matematica per scoprire come ottimizzarla tramite i moltiplicatori di Lagrange. In realtà non gestisce il caso in cui i dati non sono separabili linearmente. Le variabili lente sono un trucco che consente di integrare chiaramente questa possibilità nel problema di ottimizzazione.

È possibile utilizzare la perdita della cerniera con il "deep learning", ad esempio http://arxiv.org/pdf/1306.0239.pdf

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.