Perché è sbagliato interpretare SVM come probabilità di classificazione?

La mia comprensione di SVM è che è molto simile a una regressione logistica (LR), ovvero una somma ponderata di caratteristiche viene passata alla funzione sigmoide per ottenere una probabilità di appartenenza a una classe, ma invece della perdita tra entropia (logistica) funzione, l'allenamento viene eseguito utilizzando la perdita della cerniera. Il vantaggio dell'uso della perdita della cerniera è che si possono fare vari trucchi numerici per rendere la kernelizzazione più efficiente. Uno svantaggio, tuttavia, è che il modello risultante ha meno informazioni di quante un corrispondente modello LR potrebbe avere. Quindi, ad esempio, senza la kernelizzazione (usando un kernel lineare) il limite di decisione SVM sarebbe ancora nella stessa posizione in cui LR produrrebbe una probabilità di 0,5, MA non si può dire con quale velocità la probabilità di appartenere a una classe decade dal limite di decisione.

Le mie due domande sono:

La mia interpretazione sopra è corretta?
In che modo l'utilizzo della perdita della cerniera rende non valido l'interpretazione dei risultati SVM come probabilità?

machine-learning logistic svm

— GingerBadger
fonte

$\mathbf{x}$ $\mathbf{\beta}$ $\beta_0$ $y = sign(\beta \cdot \mathbf{x} + \beta_0)$ $\beta, \beta_0$

Nel caso di un SVM lineare (senza kernel), il limite del limite di decisione sarà simile a quello di un modello di regressione logistica, ma può variare a seconda della forza di regolarizzazione utilizzata per adattarsi al SVM. Poiché SVM e LR risolvono diversi problemi di ottimizzazione, non è garantito che si disponga di soluzioni identiche per il limite decisionale.

Esistono molte risorse sull'SVM che aiuteranno a chiarire le cose: ecco un esempio e un altro .

— il fratello Higgs
fonte

bosone di higgs Questo è molto utile, grazie! Solo alcune domande di follow-up: (1) potresti dare qualche esempio intuitivo quando un limite di decisione SVM NON sarebbe simile a un LR? (2) è uno di SVM lineare e LR generalmente migliore dell'altro, oppure ci sono tipi di problemi per i quali è preferibile uno dei due?

— GingerBadger,

Alex: in generale, SVM lineari e LR generalmente si comportano in modo comparabile nella pratica. Se si desidera un output probabilistico, utilizzare LR. Se ti interessano solo i compiti in classe, puoi usare entrambi. Se volessi un esempio in cui i loro limiti di decisione sarebbero molto diversi, potresti immaginare un set di dati linearmente separabile con una manciata di punti della classe sbagliata lontano dal confine di decisione. Gli outlier tirerebbero il confine della regressione logistica verso se stessi, ma se si avesse un SVM con un termine di regolarizzazione sufficientemente ampio, si ignorerebbero effettivamente gli outlier.

— Higgs Broson,