Perché la dimensione VC è importante?

12

La dimensione VC è la cardinalità del più grande insieme di punti che un algoritmo può frantumare.

Ad esempio, un classificatore lineare ha una cardinalità n + 1. La mia domanda è: perché ci preoccupiamo? La maggior parte dei set di dati su cui si esegue la classificazione lineare tende a essere molto grandi e contengono molti punti.

classification algorithms vc-dimension

— Undergradstudent
fonte

4

Qual è la dimensione VC

Come menzionato da @CPerkins, la dimensione VC è una misura della complessità di un modello. Può anche essere definito per quanto riguarda la capacità di frantumare punti dati come, come hai già detto, Wikipedia.

Il problema di base

Vogliamo un modello (ad esempio un classificatore) che si generalizza bene su dati invisibili .
Siamo limitati a una quantità specifica di dati di esempio.

$\mathcal{S_1}$ $\mathcal{S_k}$ $h$

Le immagini mostrano che una dimensione VC più elevata consente un rischio empirico inferiore (l'errore che un modello commette sui dati del campione), ma introduce anche un intervallo di confidenza più elevato. Questo intervallo può essere visto come la fiducia nella capacità di generalizzazione del modello.

Dimensione VC bassa (polarizzazione elevata)

Se utilizziamo un modello di bassa complessità, introduciamo una sorta di presupposto (bias) per quanto riguarda il set di dati, ad esempio quando si utilizza un classificatore lineare supponiamo che i dati possano essere descritti con un modello lineare. In caso contrario, il nostro problema dato non può essere risolto da un modello lineare, ad esempio perché il problema è di natura non lineare. Finiremo con un modello con cattive prestazioni che non sarà in grado di apprendere la struttura dei dati. Dovremmo quindi cercare di evitare di introdurre un forte pregiudizio.

Alta dimensione VC (maggiore intervallo di confidenza)

Dall'altro lato dell'asse x vediamo modelli di maggiore complessità che potrebbero essere di una capacità così grande che memorizzerà piuttosto i dati invece di apprenderne la struttura generale sottostante, cioè il modello si adatta. Dopo aver realizzato questo problema sembra che dovremmo evitare modelli complessi.

Ciò può sembrare controverso in quanto non introdurremo un pregiudizio, ad esempio se la dimensione del VC è bassa ma non dovrebbe essere presente anche la dimensione del VC elevata. Questo problema ha radici profonde nella teoria dell'apprendimento statistico ed è noto come compromesso di bias-varianza . Quello che dovremmo fare in questa situazione è essere il più complesso possibile e il più semplicistico possibile, quindi quando confrontiamo due modelli che finiscono con lo stesso errore empirico, dovremmo usare quello meno complesso.

Spero di poterti mostrare che c'è di più dietro l'idea della dimensione VC.

— Minato
fonte

1

$N$

$VC$

$N$ $N$ $log_2(N)$ bit di informazioni - in modo simile al problema di ricerca binaria con l'array ordinato.

$N$ $x$ $N$ $D=\{(x_1,y_1), (x_2, y_2), ..., (x_l, y_l)\}$ $x_i$ $x_i$ $N$ $x_i$ $\epsilon$ $\epsilon$ $1-\delta$ $(\epsilon, \delta)$ $\frac{log_2N/\delta}{\epsilon}$

$N$ $\epsilon$ $1-\delta$ $\frac{log_2N/\delta}{\epsilon^2}$

$log_2N$

$\epsilon$ $1-\delta$ $\epsilon$

^{___________________ Entrambe le linee (funzione) classificheranno i punti con lo stesso successo___________________}

$VC$ $log_2N$ $VC$ $\frac{VC -log(\delta)}{\epsilon}$ $\frac{VC - log(\delta)}{\epsilon^2}$

$VC$ $\epsilon$ $1-\delta$

— Vlad
fonte

0

La dimensione VC è una misura della complessità del modello. Ad esempio, data la dimensione VC Dvc, una buona regola pratica è che dovresti avere n = 10xDvc punti dati data la complessità del tuo modello.

Puoi anche usarlo per creare un limite superiore sull'errore di test.

— CPerkins
fonte