Qual è il modello statistico alla base dell'algoritmo SVM?


28

Ho imparato che, quando si tratta di dati utilizzando un approccio basato sul modello, il primo passo è la modellazione della procedura dei dati come modello statistico. Quindi il passo successivo è lo sviluppo di un algoritmo di inferenza / apprendimento efficiente / veloce basato su questo modello statistico. Quindi voglio chiedere quale modello statistico è dietro l'algoritmo SVM (Support Vector Machine)?

Risposte:


27

Spesso puoi scrivere un modello che corrisponde a una funzione di perdita (qui parlerò della regressione SVM piuttosto che della classificazione SVM; è particolarmente semplice)

Ad esempio, in un modello lineare, se la funzione di perdita è quindi minimizzare che corrisponderà alla massima probabilità per . (Qui ho un kernel lineare)ig(εi)=ig(yixiβ)fexp(ag(ε)) =exp(ag(yxβ))

Se ricordo bene la regressione SVM ha una funzione di perdita come questa:

diagramma della perdita insensibile a epsilon

Ciò corrisponde a una densità che è uniforme nel mezzo con code esponenziali (come vediamo esponenziando il suo negativo o un multiplo del suo negativo).

trama della densità corrispondente

Esiste una famiglia di 3 parametri: posizione dell'angolo (soglia di insensibilità relativa) più posizione e scala.

È una densità interessante; se ricordo giustamente guardando quella particolare distribuzione qualche decennio fa, un buon stimatore per la posizione perché è la media di due quantili posizionati simmetricamente corrispondenti alla posizione degli angoli (ad esempio il midhinge darebbe una buona approssimazione al MLE per un particolare scelta della costante nella perdita SVM); uno stimatore simile per il parametro di scala si baserebbe sulla loro differenza, mentre il terzo parametro corrisponde sostanzialmente a capire a quale percentile si trovano gli angoli (questo potrebbe essere scelto piuttosto che stimato come spesso accade per SVM).

Quindi, almeno per la regressione SVM, sembra abbastanza semplice, almeno se stiamo scegliendo di ottenere i nostri stimatori con la massima probabilità.

(Nel caso tu stia per chiedere ... Non ho riferimenti per questa particolare connessione con SVM: l'ho appena capito adesso. È così semplice, tuttavia, che dozzine di persone lo avranno risolto prima di me, quindi senza dubbio ci sono riferimenti per questo - non ne ho mai visto nessuno.)


2
(Ho risposto prima altrove ma l'ho eliminato e spostato qui quando ti ho visto anche chiesto qui; la capacità di scrivere matematica e includere immagini è molto meglio qui - e anche la funzione di ricerca è migliore, quindi è più facile da trovare in alcuni mesi)
Glen_b -Reststate Monica

2
+1, oltre a SVM vaniglia, ha anche un precedente gaussiano sui suoi parametri tramite -norm. 2
Firebug

2
Se l'OP chiede informazioni su SVM, è probabilmente interessato alla classificazione (che è l'applicazione più comune degli SVM). In tal caso la perdita è una perdita di cerniera che è un po 'diversa (non hai la parte crescente). Per quanto riguarda il modello, ho sentito gli accademici dire alla conferenza che gli SVM sono stati introdotti per eseguire la classificazione senza dover usare un quadro probabilistico. Probabilmente è per questo che non riesci a trovare riferimenti. D'altra parte, puoi e devi rifondere la minimizzazione della perdita della cerniera come minimizzazione del rischio empirico - il che significa ...
DeltaIV

4
Solo perché non devi avere un quadro probabilistico ... non significa che ciò che stai facendo non corrisponda a uno. Si possono fare i minimi quadrati senza assumere la normalità, ma è utile capire che è ciò che sta facendo bene in ... e quando non ci si trova vicino, potrebbe essere molto meno efficace.
Glen_b -Restate Monica

3
Forse icml-2011.org/papers/386_icmlpaper.pdf è un riferimento per questo? (L'ho solo scremato)
Lyndon White,

8

Penso che qualcuno abbia già risposto alla tua domanda letterale, ma lasciami chiarire una potenziale confusione.

La tua domanda è in qualche modo simile alla seguente:

Ho questa funzione e mi chiedo a quale equazione differenziale sia una soluzione?f(x)=

In altre parole, certamente ha una risposta valida (forse anche uno unico, se si impongono vincoli di regolarità), ma è una domanda un po 'strano a chiedere, dato che non era un'equazione differenziale che ha dato origine a tale funzione, in primo luogo.
(D'altra parte, data l'equazione differenziale, è naturale chiederne la soluzione, poiché di solito è per questo che si scrive l'equazione!)

Ecco perché: penso che tu stia pensando a modelli probabilistici / statistici, in particolare modelli generativi e discriminatori , basati sulla stima delle probabilità congiunte e condizionali dai dati.

SVM non è nessuno dei due. È un tipo completamente diverso di modello: uno che elude quelli e tenta di modellare direttamente il confine decisionale finale, le probabilità siano dannate.

Poiché si tratta di trovare la forma del confine decisionale, l'intuizione dietro di essa è geometrica (o forse dovremmo dire basata sull'ottimizzazione) piuttosto che probabilistica o statistica.

Dato che le probabilità non sono davvero considerate da nessuna parte lungo la strada, quindi, è piuttosto insolito chiedersi quale potrebbe essere un modello probabilistico corrispondente, e soprattutto poiché l'intero obiettivo era evitare di doversi preoccupare delle probabilità. Quindi perché non vedi le persone parlare di loro.


6
Penso che tu stia scontando il valore dei modelli statistici alla base della tua procedura. Il motivo per cui è utile è che ti dice quali sono i presupposti alla base di un metodo. Se li conosci, sei in grado di capire quali situazioni dovrà combattere e quando prospererà. Sei anche in grado di generalizzare ed estendere svm in modo di principio se hai il modello sottostante.
probabilityislogic

3
@probabilityislogic: "Penso che tu stia scontando il valore dei modelli statistici alla base della tua procedura." ... Penso che stiamo parlando uno dopo l'altro. Quello che sto cercando di dire è che non esiste un modello statistico dietro la procedura. Sto Non dicendo che non è possibile a venire con uno che si adatta a posteriori, ma sto cercando di spiegare che non era "dietro" in qualsiasi modo, ma piuttosto "fit" ad essa dopo il fatto . Inoltre non sto dicendo che fare una cosa del genere sia inutile; Sono d'accordo con te sul fatto che potrebbe finire con un valore straordinario. Tieni a mente queste distinzioni.
Mehrdad,

1
@Mehrdad: non sto dicendo che non è possibile trovarne uno che si adatti a posteriori, l'ordine in cui sono stati assemblati i pezzi di ciò che chiamiamo "macchina" svm (che problema stavano originariamente provando gli umani che lo hanno progettato da risolvere) è interessante dal punto di vista della storia della scienza. Ma per quanto ne sappiamo potrebbe esserci un manoscritto ancora sconosciuto in qualche biblioteca contenente una descrizione del motore svm di 200 anni fa che attacca il problema dall'angolo esplorato da Glen_b. Forse le nozioni di a posteriori e dopo il fatto sono meno affidabili nella scienza.
user603

1
@ user603: il problema non è solo la cronologia. L'aspetto storico è solo la metà. L'altra metà è come è normalmente effettivamente derivata nella realtà. Inizia come un problema di geometria e termina con un problema di ottimizzazione. Nessuno inizia con il modello probabilistico nella derivazione, il che significa che il modello probabilistico non ha in alcun senso "dietro" il risultato. È come affermare che la meccanica lagrangiana è "dietro" F = ma. Forse può portare ad esso, e sì, è utile, ma no, non lo è e non ne è mai stato la base. In effetti l' intero obiettivo era evitare la probabilità.
Mehrdad,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.