Support Vector Machine gestisce set di dati non bilanciati?

SVM gestisce un set di dati non bilanciato? Esistono parametri (come C o costo di classificazione errata) che gestiscono il set di dati sbilanciato?

machine-learning svm unbalanced-classes

— RockTheStar
fonte

Cosa rende un set di dati "sbilanciato"?

— whuber

@whuber un set di dati di classificazione con una prevalenza di classe ampiamente variabile viene spesso definito sbilanciato.

— Marc Claesen,

@Marc Questo può essere vero in generale ma è un concetto vago. Quanto è "ampiamente variabile"? Perché dovrebbe importare anche se non in determinate circostanze speciali? Credo che sia importante per noi imparare cosa intende il proponente di questa domanda "sbilanciato" piuttosto che accettare le congetture intelligenti di chiunque riguardo al significato previsto.

— whuber

I set di dati non bilanciati di @whuber sono un concetto comune nell'apprendimento automatico. In termini di applicazioni a causa, ad esempio, del rilevamento di spam, ecc. Forse a causa della preponderanza di algoritmi che mirano all'errore di classificazione errata anziché alla probabilità. Questo a sua volta rende problematica la ponderazione dell'errore.

— seanv507,

Grazie, @seanv, per il chiarimento. Il problema terminologico sembra davvero che "handle" non si riferisca a "può essere applicato", ma implica piuttosto un'impostazione in cui (1) esiste una classe che è in una minoranza tale che le sue prestazioni di previsione potrebbero essere fortemente influenzate da la presenza delle altre classi, mentre (2) la previsione accurata per la classe di minoranza è di interesse. In questo senso "set di dati sbilanciato" è una descrizione piuttosto incompleta del problema, ma poiché il termine sembra aver acquisito una certa valuta, sembra inutile lamentarsi.

— whuber

Risposte:

Per i set di dati non bilanciati, in genere viene modificata la penalità di classificazione errata per classe. Questo si chiama SVM ponderato per classe, che minimizza quanto segue:

\begin{aligned} min_{w, b, ξ} & \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} κ (x_{i}, x_{j}) + C_{p o s} \sum_{i \in P} ξ_{i} + C_{n e g} \sum_{i \in N} ξ_{i}, \\ s . t . & y_{i} (\sum_{j = 1}^{N} α_{j} y_{j} κ (x_{i}, x_{j}) + b) \geq 1 - ξ_{i}, & i = 1 \dots N \\ ξ_{i} \geq 0, & i = 1 \dots N \end{aligned}

$\begin{align} \min_{\mathbf{w},b,\xi} &\quad \sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j \kappa(\mathbf{x}_i,\mathbf{x}_j) + C_{pos}\sum_{i\in \mathcal{P}} \xi_i + C_{neg}\sum_{i\in \mathcal{N}}\xi_i, \\ s.t. &\quad y_i\big(\sum_{j=1}^N \alpha_j y_j \kappa(\mathbf{x}_i, \mathbf{x}_j) + b\big) \geq 1-\xi_i,& i=1\ldots N \\ &\quad \xi_i \geq 0, & i=1\ldots N \end{align}$

dove e rappresentano le istanze di allenamento positive / negative. Nella SVM standard abbiamo un solo valore , mentre ora abbiamo 2. La penalità di errata classificazione per la classe di minoranza è scelta per essere maggiore di quella della classe di maggioranza. $\mathcal{P}$ $\mathcal{N}$ $C$

Questo approccio è stato introdotto abbastanza presto, è menzionato ad esempio in un documento del 1997:

Edgar Osuna, Robert Freund e Federico Girosi. Support Vector Machines: formazione e applicazioni. Relazione tecnica AIM-1602, 1997. ( pdf )

Fondamentalmente questo equivale a sovracampionare la classe di minoranza: ad esempio se questo è del tutto equivalente all'addestramento di un SVM standard con dopo aver incluso ogni due volte positivo nel set di addestramento. $C_{pos} = 2 C_{neg}$ $C=C_{neg}$

— Marc Claesen
fonte

Figo, grazie! Oltre a ciò, la regressione logistica, le baie della marina, l'albero decisionale gestiscono questo problema di squilibrio?

— RockTheStar,

la regressione logistica sicuramente lo fa, si valuta semplicemente la probabilità di modelli positivi e modelli negativi in modo diverso.

— Dikran Marsupial,

La regressione logistica e SVM forniscono modalità intrinseche. Non lo so a memoria per tutti questi altri metodi, ma il sovracampionamento della classe di minoranza funziona praticamente per tutti i metodi (anche se non è esattamente matematicamente elegante).

— Marc Claesen,

Bene, grazie @Dikran. Marc: sì, semplici sovracampionamenti in generale. Tuttavia, questo dipende dalla situazione. Quello che succede è che stai aggiungendo "pesi" ai dati di minoranza quando stai sovracampionando la minoranza (replicando ripetutamente i punti di minoranza nelle stesse posizioni). Ciò aiuta essenzialmente a migliorare la "considerazione" dell'esempio di minoranza. Tuttavia, il limite decisionale della classificazione diventerà piuttosto teso (non abbastanza generale), ovvero potrebbe verificarsi un eccesso di adattamento). Pertanto, potremmo dover considerare alcune tecniche di campionamento probablistic, come SMOTE.

— RockTheStar,

Le SVM sono in grado di gestire set di dati con frequenze di classe sbilanciate. Molte implementazioni consentono di avere un valore diverso per la penalità di gioco (C) per le classi positive e negative (che è asintoticamente equivalente alla modifica delle frequenze delle classi). Consiglierei di impostare i valori di questi parametri per massimizzare le prestazioni di generalizzazione su un set di test in cui le frequenze di classe sono quelle che ci si aspetta di vedere nell'uso operativo.

Ero una delle tante persone che hanno scritto articoli su questo, ecco il mio , vedrò se riesco a trovare qualcosa di più recente / migliore. Prova Veropoulos, Campbell e Cristianini (1999).

— Dikran Marsupial
fonte

Dikran perché è solo asintoticamente equivalente ... sicuramente è esattamente equivalente a ponderare i diversi errori di classe in modo diverso?

— seanv507,

È esattamente equivalente alla ponderazione degli errori di classe, ma non è la stessa cosa del ricampionamento dei dati (per cominciare i pesi sono continuamente variabili, ma i dati sono discreti). È uno dei risultati delle aspettative asintotiche (che non sembrano particolarmente utili nella maggior parte dei casi).

— Dikran Marsupial,