Qual è la definizione esatta della dimensione VC?


8

Sto studiando l'apprendimento automatico dalle lezioni di Andrew Ng Stanford e mi sono appena imbattuto nella teoria delle dimensioni del VC. Secondo le lezioni e ciò che ho capito, la definizione di dimensione VC può essere data come,

Se riesci a trovare un set di n punti, in modo che possa essere frantumato dal classificatore (ovvero classificare tutto il possibile 2n etichettatura corretta) e non è possibile trovare alcun set di n+1 punti che possono essere frantumati (ovvero per qualsiasi set di n+1 punti c'è almeno un ordine di etichettatura in modo che il classificatore non possa separare correttamente tutti i punti), quindi la dimensione VC è n.

Anche il Professore ha preso un esempio e lo ha spiegato bene. Che è:

Permettere,

H={Set of lioneun'r clun'SSiofioerS ion 2 DiomenSioonS}

Quindi è possibile classificare qualsiasi 3 punti H correttamente con iperpiano di separazione come mostrato nella figura seguente.

inserisci qui la descrizione dell'immagine

Ed è per questo che la dimensione VC di Hè 3. Perché per qualsiasi 4 punti nel piano 2D, un classificatore lineare non può frantumare tutte le combinazioni dei punti. Per esempio,

inserisci qui la descrizione dell'immagine

Per questo set di punti, non è possibile disegnare un iperpiano di separazione per classificare questo set. Quindi la dimensione VC è 3.

Ho avuto l'idea fino a qui. Ma cosa succede se seguiamo il tipo di modello?

inserisci qui la descrizione dell'immagine

O lo schema in cui tre punti coincidono l'uno sull'altro, anche qui non possiamo disegnare un iperpiano di separazione tra 3 punti. Tuttavia, questo modello non è considerato nella definizione della dimensione VC. Perché? Lo stesso punto viene anche discusso delle lezioni che sto guardando qui alle 16:24 ma il professore non menziona il motivo esatto dietro questo.

Ogni esempio intuitivo di spiegazione sarà apprezzato. Grazie


Risposte:


9

La definizione di dimensione VC è: se esiste un set di n punti che può essere frantumato dal classificatore e non esiste un set di n + 1 punti che può essere frantumato dal classificatore, la dimensione VC del classificatore è n.

La definizione non dice: se una qualsiasi serie di n punti può essere frantumata dal classificatore ...

Se la dimensione VC di un classificatore è 3, non è necessario frantumare tutte le possibili disposizioni di 3 punti.

Se di tutte le disposizioni di 3 punti è possibile trovare almeno una di tali disposizioni che può essere frantumata dal classificatore e non è possibile trovare 4 punti che possono essere frantumati, la dimensione VC è 3.


1
Quindi in questo caso possiamo ottenere almeno un modello di qualsiasi numero di punti che possono essere classificati in linea retta. Ad esempio, pensa a 4 punti. Due punti rossi nella parte sinistra e due punti blu nella parte destra permetterebbero di classificare, e la dimensione VC sarebbe 4. Quindi perché non considerare questo?
Kaushal28,

Classificato - sì. Shattered - no
Vladislav Gladkikh,

Allora, qual è il significato di frantumare una disposizione di punti? Sono davvero confuso qui. Grazie
Kaushal28,

Una disposizione di punti può essere frantumata se qualsiasi sottoinsieme di questa disposizione può essere isolato e messo in una classe. Supponiamo che tu voglia verificare se una determinata disposizione (non tutte le possibili disposizioni ma solo una particolare disposizione) di n punti può essere frantumata da un certo tipo di classificatori. Quindi si verifica innanzitutto se è possibile isolare un singolo punto. Quindi, se è possibile isolare 2 punti qualsiasi, quindi se 3 punti ecc., Fino a qualsiasi n-1 punti di quella particolare disposizione. Vedi qui en.wikipedia.org/wiki/Shattered_set
Vladislav Gladkikh

1
La figura con 8 sottotrame è un'ottima illustrazione di ciò che è sconvolgente. Qui hai 3 punti, 2 classi, quindi 2 ^ 3 = 8 possibili etichette di questi 3 punti. Tutte e 8 le etichette possono essere fatte e isolate con una linea, quindi questo set può essere frantumato da una linea. La figura con 4 punti: ha alcune etichette che possono essere isolate con una linea (diciamo, due a sinistra sono rosse, due a destra sono blu) ma ha anche un'etichetta che non può essere isolata con una linea (come nella Figura: superiore e blu in basso; sinistra e destra sono a sinistra). Dato che ha un'etichettatura che non può essere isolata con una linea, questo set non è frantumato.
Vladislav Gladkikh,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.