Intuizione per Support Vector Machines e l'iperpiano


14

Nel mio progetto voglio creare un modello di regressione logistica per prevedere la classificazione binaria (1 o 0).

Ho 15 variabili, 2 delle quali sono categoriche, mentre il resto è una miscela di variabili continue e discrete.

Al fine di adattare un modello di regressione logistica mi è stato consigliato di verificare la separabilità lineare usando SVM, perceptron o programmazione lineare. Ciò si collega ai suggerimenti qui forniti in merito ai test per la separabilità lineare.

Come principiante dell'apprendimento automatico comprendo i concetti di base sugli algoritmi sopra menzionati, ma concettualmente faccio fatica a visualizzare come possiamo separare i dati che hanno così tante dimensioni, cioè 15 nel mio caso.

Tutti gli esempi nel materiale online mostrano in genere un grafico 2D di due variabili numeriche (altezza, peso) che mostrano un chiaro divario tra le categorie e ne facilitano la comprensione, ma nel mondo reale i dati sono generalmente di dimensione molto più elevata. Continuo a essere attratto dal set di dati di Iris e cerco di inserire un iperpiano attraverso le tre specie e di quanto sia particolarmente difficile se non impossibile farlo tra due specie, le due classi mi sfuggono proprio ora.

Come si ottiene questo risultato quando abbiamo ordini di dimensioni ancora più elevati , si presume che quando superiamo un certo numero di funzioni che usiamo i kernel per mappare su uno spazio dimensionale più elevato al fine di ottenere questa separabilità?

Anche per verificare la separabilità lineare qual è la metrica utilizzata? È l'accuratezza del modello SVM, ovvero l'accuratezza basata sulla matrice di confusione?

Qualsiasi aiuto per comprendere meglio questo argomento sarebbe molto apprezzato. Di seguito è riportato un esempio di un diagramma di due variabili nel mio set di dati che mostra quanto siano sovrapposte solo queste due variabili.

inserisci qui la descrizione dell'immagine


1
sembra che tu abbia diverse domande distinte nel tuo post. metterli tutti insieme in un elenco o rimuovere le domande non essenziali. questo attira più persone a cui rispondere e risposte migliori
Aksakal

2
generalmente l'intuizione ha bisogno di molto aiuto dall'immaginazione quando si passa dalla situazione 2D a quella ad alta dimensione, spesso l'intuizione si interrompe completamente. ci sono molte versioni ad alta dimensione di problemi a bassa dimensione che sembrano appartenere a un mondo completamente diverso in cui le cose funzionano diversamente, pensa al teorema
Aksakal,

Risposte:


14

Proverò ad aiutarti a capire meglio perché aggiungere quote aiuta un classificatore lineare a fare un lavoro migliore nel separare due classi.

X1X2n=3

n = 3

Ora immagina di assegnare alcuni dei punti alla classe 1 e alcuni alla classe 2. Nota che, indipendentemente da come assegniamo le classi ai punti, possiamo sempre tracciare una linea che separa perfettamente le due classi.

Ma ora diciamo che aggiungiamo un nuovo punto:

n = 4

p=2

X3

p = 3, n = 4

p=3n=4

pp+1

np

FnFnFFpFn=p+1Fpquindi può frantumare qualsiasi numero di punti. Questa nozione di frantumazione, che ci dice della complessità di un insieme di possibili classificatori, proviene dalla teoria dell'apprendimento statistico e può essere usata per fare affermazioni sulla quantità di overfitting che un insieme di classificatori può fare. Se siete interessati, consiglio vivamente a Luxburg e Schölkopf "Teoria dell'apprendimento statistico: modelli, concetti e risultati" (2008).


molte grazie per la tua risposta dettagliata, mi ha davvero aiutato a capire meglio l'idea delle caratteristiche multidimensionali e come separarle in modo intuitivo.
TheGoat

7

È facile fare un errore quando prendi la tua intuizione su spazi a bassa dimensione e la applichi a spazi ad alta dimensione. La tua intuizione è esattamente all'indietro in questo caso. Risulta molto più facile trovare un iperpiano di separazione nello spazio dimensionale superiore rispetto allo spazio inferiore.

Anche se osservando due coppie di variabili, le distribuzioni rossa e blu si sovrappongono, osservando tutte e 15 le variabili contemporaneamente è molto probabile che non si sovrappongano affatto.


2

Hai 15 variabili, ma non tutte sono ugualmente significative per la discriminazione della tua variabile dipendente (alcune potrebbero anche essere quasi irrilevanti).

L'analisi dei componenti principali (PCA) ricalcola una base lineare di quelle 15 variabili e le ordina, in modo tale che i primi pochi componenti spieghino tipicamente la maggior parte della varianza. Ciò consente di ridurre un problema di 15 dimensioni a (diciamo) un problema di 2,3,4 o 5 dimensioni. Quindi rende la trama più intuitiva; in genere è possibile utilizzare due o tre assi per variabili numeriche (o ordinali con cardinalità elevata), quindi utilizzare il colore, la forma e le dimensioni del marker per tre dimensioni extra (forse di più se è possibile combinare ordinali con cardinalità bassa). Quindi, la stampa con i 6 PC più importanti dovrebbe darti una visualizzazione più chiara della tua superficie decisionale.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.