La mia comprensione di SVM è che è molto simile a una regressione logistica (LR), ovvero una somma ponderata di caratteristiche viene passata alla funzione sigmoide per ottenere una probabilità di appartenenza a una classe, ma invece della perdita tra entropia (logistica) funzione, l'allenamento viene eseguito utilizzando la perdita della cerniera. Il vantaggio dell'uso della perdita della cerniera è che si possono fare vari trucchi numerici per rendere la kernelizzazione più efficiente. Uno svantaggio, tuttavia, è che il modello risultante ha meno informazioni di quante un corrispondente modello LR potrebbe avere. Quindi, ad esempio, senza la kernelizzazione (usando un kernel lineare) il limite di decisione SVM sarebbe ancora nella stessa posizione in cui LR produrrebbe una probabilità di 0,5, MA non si può dire con quale velocità la probabilità di appartenere a una classe decade dal limite di decisione.
Le mie due domande sono:
- La mia interpretazione sopra è corretta?
- In che modo l'utilizzo della perdita della cerniera rende non valido l'interpretazione dei risultati SVM come probabilità?