Interpretazione della distanza dall'iperpiano in SVM

Ho qualche dubbio nel comprendere intuitivamente gli SVM. Supponiamo di aver addestrato un modello SVM per la classificazione utilizzando alcuni strumenti standard come SVMLight o LibSVM.

Quando utilizziamo questo modello per la previsione sui dati di test, il modello genera un file con valori "alfa" per ciascun punto di test. Se il valore alfa è positivo, il punto di prova appartiene alla classe 1, altrimenti appartiene alla classe 2. Ora, possiamo dire che un punto di prova con un valore "alfa" maggiore appartiene alla classe corrispondente con probabilità "maggiore"?
Simile alla prima domanda, quando abbiamo un SVM addestrato. La SV si trova molto vicino all'iperpiano. Ciò significa che gli SV appartengono a quella classe con alta probabilità? Possiamo mettere in relazione la probabilità di un punto appartenente a una classe con la sua distanza dall '"iperpiano"? Il valore "alfa" rappresenta la distanza da "iperpiano"?

Grazie per il tuo contributo.

machine-learning svm max-margin

— Amit
fonte

Penso che la risposta sia "no", ma non mi bastano gli SVM per darti una risposta completa. La mia risposta è che quando sei sul lato est del muro di Berlino, beh, sei dalla parte sbagliata, non importa quanto tu sia lontano da esso.

— Arthur,

scikits.learn ha predict_proba per SVC e linear_model.SGDClassifier, credo solo per i classificatori binari; Non l'ho usato però.

— denis,

Vorrei prima rispondere alla tua domanda in generale. SVM non è un modello probabilistico. Uno dei motivi è che non corrisponde a una probabilità normalizzabile. Per esempio in minimi quadrati regolarizzati si ha la funzione di perdita e il regolarizzatore . Il vettore di peso si ottiene minimizzando la somma dei due. Tuttavia, ciò equivale a massimizzare il log-posteriore di dati i dati $\sum_i \|y_i - \langle w, x_i\rangle - b\|_2^2$ $\|w\|_2^2$ $w$ , che si può vedere di essere prodotto di una probabilità gaussiana e un priore gaussiano su ( $p(w|(y_1,x_1),...,(y_m,x_m)) \propto 1/Z \exp(-\|w\|_2^2)\prod_i \exp(\|y_i - \langle w, x_i\rangle - b\|_2^2)$ $w$ $Z$ si assicura che si normalizzi). Puoi arrivare alla probabilità gaussiana dalla funzione di perdita lanciando il suo segno ed esponendolo. Tuttavia, se lo fai con la funzione di perdita dell'SVM, la probabilità di log non è un modello probabilistico normalizzabile.

Ci sono tentativi di trasformare SVM in uno. Il più notevole, che è - penso - implementato anche in libsvm è:

John Platt: risultati probabilistici per macchine vettoriali di supporto e confronto con i metodi di verosimiglianza regolarizzati (NIPS 1999): http://www.cs.colorado.edu/~mozer/Teaching/syllabi/6622/papers/Platt1999.pdf

$\alpha$ $\alpha$ $\sum_{i \in SV}\alpha_i k(x,x_i) + b$ (e dovrebbe quindi essere correttamente chiamato $y$ $y = \sum_{i \in SV}\alpha_i k(x,x_i) + b = \langle w, \phi(x) \rangle_{\mathcal H} + b$ $w$ $y$ $w$ $\|w\|_{H} = \sqrt{\sum_{i,j\in SV} \alpha_i \alpha_j k(x_i,x_j)}$ .

— fabee
fonte

thnx for your explanation...will read the paper

— Amit