Confronto tra SVM e regressione logistica


37

Qualcuno può darmi qualche intuizione su quando scegliere SVM o LR? Voglio capire l'intuizione dietro qual è la differenza tra i criteri di ottimizzazione dell'apprendimento dell'iperpiano dei due, in cui i rispettivi obiettivi sono i seguenti:

  • SVM: prova a massimizzare il margine tra i vettori di supporto più vicini
  • LR: Massimizza la probabilità della classe posteriore

Consideriamo lo spazio lineare delle funzioni sia per SVM che per LR.

Alcune differenze che conosco già:

  1. SVM è deterministico (ma possiamo usare il modello Platts per il punteggio di probabilità) mentre LR è probabilistico.
  2. Per lo spazio del kernel, SVM è più veloce (gli archivi supportano solo i vettori)

2
Questa affermazione è errata: " LR: Massimizza la probabilità della classe posteriore ". La regressione logistica massimizza la probabilità, non una certa densità posteriore. La regressione logistica bayesiana è una storia diversa, ma è necessario essere specifici al riguardo, se è quello a cui ti stai riferendo.
Digio,

Risposte:


30

Le SVM lineari e la regressione logistica generalmente si comportano in modo comparabile nella pratica. Usa SVM con un kernel non lineare se hai motivo di credere che i tuoi dati non saranno separabili linearmente (o se devi essere più robusto nei valori anomali di quanto normalmente tollererà LR). Altrimenti, prova prima la regressione logistica e vedi come fai con quel modello più semplice. Se la regressione logistica non riesce, provare un SVM con un kernel non lineare come un RBF.

MODIFICARE:

Ok, parliamo da dove provengono le funzioni oggettive.

La regressione logistica deriva dalla regressione lineare generalizzata. Una buona discussione della funzione dell'obiettivo di regressione logistica in questo contesto è disponibile qui: https://stats.stackexchange.com/a/29326/8451

L'algoritmo Support Vector Machines è molto più motivato geometricamente . Invece di assumere un modello probabilistico, stiamo cercando di trovare un particolare iperpiano di separazione ottimale, in cui definiamo "ottimalità" nel contesto dei vettori di supporto. Non abbiamo nulla che assomigli al modello statistico che usiamo nella regressione logistica qui, anche se il caso lineare ci darà risultati simili: in realtà questo significa solo che la regressione logistica fa un buon lavoro nel produrre classificatori a "ampio margine", dato che tutto ciò che SVM sta cercando di fare (in particolare, SVM sta cercando di "massimizzare" il margine tra le classi).

Proverò a tornare su questo più tardi e ad approfondire un po 'le erbacce, sono solo nel mezzo di qualcosa: p


1
Ma ciò non risponde ancora alla mia domanda su quale sia la differenza intuitiva nelle funzioni oggettive di SVM v / s LR, che sono le seguenti: (a) SVM: cerca di massimizzare il margine tra i vettori di supporto più vicini (b) LR: Massimizza la probabilità della classe posteriore
user41799

Voglio dire, questa è una domanda completamente diversa. Stai chiedendo quando utilizzare i modelli o cosa motiva la forma delle loro funzioni oggettive?
David Marx,

1
Sono più interessato a ciò che motiva la forma delle loro funzioni oggettive
user41799

4
Proverò a tornare su questo più tardi e ad approfondire un po 'le erbacce, sono solo nel mezzo di qualcosa Quattro anni dopo ...
user1717828

23

Regressione logistica Vs SVM

L'immagine indica la differenza tra SVM e regressione logistica e dove utilizzare quale metodo

questa immagine viene dal corso di studio: "machine learning" di Andrew NG. Può essere trovato nella settimana 7 alla fine di: "Supporto macchine vettoriali - utilizzo di un SVM"


Per "caratteristiche", intendi il numero di attributi univoci o il numero totale di valori univoci appartenenti a tali attributi?
Ahmedov,

ad es .: nella previsione del prezzo del prezzo della gomma, una caratteristica è il prezzo della benzina uno è il tempo, ecc .....
JSONParser,

In realtà, l'immagine non dice nulla delle loro differenze ...
Jan Kukacka,

la differenza può essere sbagliata confronto delle parole può essere migliore
JSONParser

1
  • LR fornisce probabilità calibrate che possono essere interpretate come sicurezza in una decisione.
  • LR ci dà un obiettivo semplice e senza vincoli.
  • LR può essere (direttamente) utilizzato nei modelli bayesiani.
  • Le SVM non penalizzano esempi per i quali viene presa la decisione corretta con sufficiente sicurezza. Questo può essere buono per la generalizzazione.
  • Le SVM hanno una bella doppia forma, offrendo soluzioni sparse quando si usa il trucco del kernel (migliore scalabilità)

Dai un'occhiata a Support Vector Machines vs Logistic Regression, University of Toronto CSC2515 di Kevin Swersky.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.