Qual è la dimensione VC
Come menzionato da @CPerkins, la dimensione VC è una misura della complessità di un modello. Può anche essere definito per quanto riguarda la capacità di frantumare punti dati come, come hai già detto, Wikipedia.
Il problema di base
- Vogliamo un modello (ad esempio un classificatore) che si generalizza bene su dati invisibili .
- Siamo limitati a una quantità specifica di dati di esempio.
S1SKh
Le immagini mostrano che una dimensione VC più elevata consente un rischio empirico inferiore (l'errore che un modello commette sui dati del campione), ma introduce anche un intervallo di confidenza più elevato. Questo intervallo può essere visto come la fiducia nella capacità di generalizzazione del modello.
Dimensione VC bassa (polarizzazione elevata)
Se utilizziamo un modello di bassa complessità, introduciamo una sorta di presupposto (bias) per quanto riguarda il set di dati, ad esempio quando si utilizza un classificatore lineare supponiamo che i dati possano essere descritti con un modello lineare. In caso contrario, il nostro problema dato non può essere risolto da un modello lineare, ad esempio perché il problema è di natura non lineare. Finiremo con un modello con cattive prestazioni che non sarà in grado di apprendere la struttura dei dati. Dovremmo quindi cercare di evitare di introdurre un forte pregiudizio.
Alta dimensione VC (maggiore intervallo di confidenza)
Dall'altro lato dell'asse x vediamo modelli di maggiore complessità che potrebbero essere di una capacità così grande che memorizzerà piuttosto i dati invece di apprenderne la struttura generale sottostante, cioè il modello si adatta. Dopo aver realizzato questo problema sembra che dovremmo evitare modelli complessi.
Ciò può sembrare controverso in quanto non introdurremo un pregiudizio, ad esempio se la dimensione del VC è bassa ma non dovrebbe essere presente anche la dimensione del VC elevata. Questo problema ha radici profonde nella teoria dell'apprendimento statistico ed è noto come compromesso di bias-varianza . Quello che dovremmo fare in questa situazione è essere il più complesso possibile e il più semplicistico possibile, quindi quando confrontiamo due modelli che finiscono con lo stesso errore empirico, dovremmo usare quello meno complesso.
Spero di poterti mostrare che c'è di più dietro l'idea della dimensione VC.