Limiti dimensionali VC di apprendimento PAC corretti


11

È noto che per un concetto di classe C con dimensione VC d , è sufficiente ottenere O(dεlog1ε)esempi etichettati per PAC learn. Non mi è chiaro se l'algoritmo di apprendimento PAC (che utilizza questi numerosi campioni) sia corretto o improprio? Nei libri di testo di Kearns e Vazirani, così come in Anthony e Biggs, sembra che l'algoritmo di apprendimento PAC sia improprio (ovvero, l'ipotesi di output non risiede in)CCC

  1. Qualcuno potrebbe chiarire se un limite superiore simile vale anche per l'impostazione di apprendimento PAC corretta? Se è così, potresti darmi un riferimento in cui questo è esplicitamente menzionato e contiene anche una prova autonoma?

  2. Recentemente Hanneke ha migliorato questo limite eliminando il fattore log(1/ε) . Qualcuno potrebbe chiarire se il log(1/ε) è noto per essere rimovibile per l'impostazione di apprendimento PAC corretta? O è ancora una domanda aperta?


A quale documento di Hanneke ti riferisci?
gradstudent,

Risposte:


9

I miei ringraziamenti ad Aryeh per avermi portato questa domanda alla mia attenzione.

Come altri hanno già detto, la risposta a (1) è , e il semplice metodo di minimizzazione del rischio empirico in C raggiunge la complessità del campione O((d/ε)log(1/ε)) (vedi Vapnik e Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler e Warmuth, 1989).

Per quanto riguarda (2), è infatti noto che esistono spazi C cui nessun algoritmo di apprendimento adeguato raggiunge una complessità campione migliore di Ω((d/ε)log(1/ε)) , e quindi l'apprendimento corretto non può raggiungere la O(d/ε) ottimale ( d / ε ) complessità del campione. Per quanto ne so, questo fatto non è mai stato effettivamente pubblicato, ma è radicato in un argomento correlato di Daniely e Shalev-Shwartz (COLT 2014) (originariamente formulato per una domanda diversa, ma correlata, nell'apprendimento multiclasse).

Si consideri il caso semplice d=1 , e mettere lo spazio X come {1,2,...,1/ε} , e C sono i caratteri singolari fz(x):=I[x=z],zX : ovvero, ogni classificatore in C classifica esattamente un punto da X come 1 e gli altri come 0. Per il limite inferiore, prendi la funzione target come singleton casuale fx , dove xUniform(X) e P , la distribuzione marginale di X , è uniforme su X{x} . Ora lo studente non vede mai alcun esempio etichettato 1 , ma deve scegliere un punto z per indovinare è etichettato 1 (soprattutto, la funzione `` tutto zero '' non è in C, In modo che qualsiasi studente corretta deve indovinare qualche z ), e fino a quando non ha visto tutti i punti in X{x} ha almeno 1/2 possibilità di indovinare sbagliato (cioè la probabilità a posteriori del suo fz avendo zx è almeno 1/2 ). L'argomento coupon collector implica che richiederebbe Ω((1/ε)log(1/ε))esempi per vedere ogni punto in X{x} . Quindi questo dimostra un limite inferiore di Ω((1/ε)log(1/ε)) per tutti gli studenti corretti.

Per generale d>1 , prendiamo X come {1,2,...,d/(4ε)} , prendi C come classificatori IA per gli insiemi AX di dimensioni esattamente d , scegli la funzione bersaglio a caso da C e prendi nuovamente P come uniforme solo sui punti che la funzione bersaglio classifica 0 ( così lo studente non vede mai un punto etichettato 1). Quindi una generalizzazione dell'argomento coupon-collector implica che abbiamo bisogno di campioni Ω((d/ε)log(1/ε)) per vedere almeno |X|-2d punti distinti da X , e senza vedere questo molti punti distinti qualsiasi studente corretto ha almeno 1/3 possibilità di ottenere maggiore di d/4 della sua congettura UN delle d punti di sbagliato nella sua ipotesi prescelta hUN, il che significa che il suo tasso di errore è maggiore di ε . Quindi, in questo caso, non esiste uno studente appropriato con complessità del campione inferiore a Ω((d/ε)log(1/ε)) , il che significa che nessuno studente appropriato raggiunge la complessità ottimale del campione O(d/ε) .

Si noti che il risultato è abbastanza specifico per lo spazio C costruito. Esistono spazi C cui i discenti corretti possono raggiungere la complessità ottimale del campione O(d/ε) , e in effetti anche l'esatta espressione completa O((d/ε)+(1/ε)log(1/δ)) da ( Hanneke, 2016a). Alcuni limiti superiori e inferiori per gli studenti di ERM generali sono stati sviluppati in (Hanneke, 2016b), quantificati in termini di proprietà dello spazio C, oltre a discutere alcuni casi più specializzati in cui a volte specifici discenti corretti possono raggiungere la complessità ottimale del campione.

Riferimenti:

Vapnik e Chervonenkis (1974). Teoria del riconoscimento dei modelli. Nauka, Mosca, 1974.

Blumer, Ehrenfeucht, Haussler e Warmuth (1989). L'apprendimento e la dimensione Vapnik-Chervonenkis. Journal of the Association for Computing Machinery, 36 (4): 929-965.

Daniely e Shalev-Shwartz (2014). Studenti ottimali per problemi multiclasse. Negli atti della 27a Conferenza sulla teoria dell'apprendimento.

Hanneke (2016a). La complessità ottimale del campione di PAC Learning. Journal of Machine Learning Research, Vol. 17 (38), pagg. 1-15.

Hanneke (2016b). Limiti di errore raffinato per diversi algoritmi di apprendimento. Journal of Machine Learning Research, Vol. 17 (135), pagg. 1-55.


Interessante ... Esiste una caratterizzazione combinatoria delle classi per la quale un adeguato apprendimento PAC è ottimale per il campione? O almeno condizioni sufficienti (chiusura sotto incrocio, unione?)C
Clemente C.

2
@ClementC. Non è nota alcuna caratterizzazione completa di quali classi hanno tassi ottimali raggiungibili dai veri studenti in generale. Il documento di riferimento "Raffinati limiti di errore ..." fornisce una caratterizzazione combinatoria di quali classi ammettono tariffe ottimali per tutti gli studenti ERM (Corollary 14). La quantità rilevante è il "numero stella": il maggior numero di punti in modo tale che uno possa ribaltare l'etichetta di ogni singolo punto senza cambiare gli altri (Definizione 9). Le lezioni chiuse a intersezione hanno un discente appropriato ottimale: l'alg di "chiusura" (Teorema 5 nel documento, e dimostrato anche da Darnstädt, 2015).
S. Hanneke,

Grazie!
Clemente C.,

6

Le tue domande (1) e (2) sono correlate. Innanzitutto, parliamo del corretto apprendimento PAC. È noto che ci sono studenti PAC adeguati che ottengono un errore di campionamento pari a zero e che tuttavia richiedono esempi. Per una semplice prova delladipendenza,,considerare la classe di concetto degli intervalli[a,b][0,1]sotto la distribuzione uniforme. Se scegliamo l'intervallo coerentepiù piccolo, otteniamo effettivamente una complessità del campione diO(1/ϵ). Supponiamo, tuttavia, che scegliamo l'intervallomaggiore piùconsistente e il concetto target sia un intervallo di punti come. Quindi un semplice argomento coupon-collector mostra che a meno che non riceviamo all'incircaΩ(dεlog1ε)ε[un',B][0,1]O(1/ε)[0,0] esempi, saremo ingannati dalla spaziatura tra gli esempi negativi (l'unico tipo che vedremo) - che ha un comportamento caratteristico di1/[dimensione del campione] sotto la distribuzione uniforme. Sono indicati limiti inferiori più generali di questo tipo1εlog1ε1/

P. Auer, R. Ortner. Un nuovo PAC destinato alle classi di concetti chiuse da intersezione. Machine Learning 66 (2-3): 151-163 (2007) http://personal.unileoben.ac.at/rortner/Pubs/PAC-intclosed.pdf

La cosa positiva del PAC è che per risultati positivi nel caso astratto, non si può specificare un algoritmo oltre ERM, che dice "trova un concetto coerente con il campione etichettato". Quando si dispone di una struttura aggiuntiva, ad esempio gli intervalli, è possibile esaminare due diversi algoritmi ERM, come sopra: un segmento coerente tra minimo e massimo. E questi hanno diverse complessità di esempio!

Il potere di PAC improprio è che puoi progettare vari schemi di voto (quello di Hanneke è un tale risultato) - e questa struttura aggiuntiva ti consente di dimostrare tassi migliori. (La storia è più semplice per il PAC agnostico, in cui ERM offre la migliore percentuale di casi peggiori possibile, fino alle costanti.)

Modificare. Ora mi viene in mente che la strategia di previsione del grafico 1 inclusione di D. Haussler, N. Littlestone, Md K. Warmuth. Predire {0,1} -Funzioni su punti disegnati casualmente. Inf. Comput. 115 (2): 248-292 (1994) potrebbe essere un candidato naturale per lo studente PAC universale .O(d/ε)


Grazie! Ok, quindi se ti capisco correttamente, la complessità del campione di apprendimento PAC errato è e per l'apprendimento PAC corretto è Θ ( d / ϵΘ(d/ε) , il limite inferiore per quest'ultimo è realizzato per l'esempio che dai. È giusto? Θ(d/εlog(1/ε))
Annunciato l'

Sì, con la leggera riserva che per PAC errato è necessario utilizzare un algoritmo specifico (quello di Hanneke), non solo un vecchio ERM. Sentiti libero di accettare la risposta :)
Aryeh,

Sono in ritardo alla festa, ma il suddetto PAC-Proper non ha un limite inferiore di una complessità del campione inferiore a uno specifico algoritmo di apprendimento (o a una sua classe ristretta)? Voglio dire, senza tale restrizione non esiste teoricamente alcuna separazione tra PAC corretto e improprio, giusto? (E quindi nessuna separazione senza ipotesi computazionali, come o simile)?)NPRP
Clemente

1
La solita definizione di apprendibilità PAC richiede algoritmi poli-tempo. I miei punti sono che (i) rilassante che, proprio e improprio hanno la stessa complessità del campione; (ii) con questo requisito, non possiamo dimostrare una separazione incondizionata tra proprio e improprio (poiché proverebbe essenzialmente qualcosa come NP non uguale a RP). (Possiamo dimostrare limiti inferiori sulla complessità del campione di specifici algoritmi di apprendimento appropriati, che, per quanto ho capito, è ciò che fa il riferimento di Aryeh.)
Clemente C.

1
@ClementC. In uno dei tuoi precedenti commenti, hai menzionato dopo aver eseguito un algoritmo PAC improprio, uno studente ottiene un'ipotesi forse impropria e lo studente può quindi trovare l'ipotesi corretta più vicina dalla classe di concetti (senza ulteriori campioni). Ma come può lo studente fare questo senza conoscere la distribuzione in base alla quale vengono forniti i campioni? Il più vicino non viene misurato secondo una distribuzione sconosciuta?
Annunciato il

5

Per aggiungere alla risposta attualmente accettata:

  1. Sì. La limite superiore della complessità del campione vale anche per il corretto apprendimento PAC(anche se è importante notare che potrebbe non portare a un algoritmo di apprendimento efficiente dal punto di vista computazionale. Che è normale, poiché a meno cheNP=R

    O(dεlog1ε)
    sia noto che alcune classi sono PAC apprendibile in modo non efficace. Cfr. ad es. Teorema 1.3 nel libro di Kearns — Vazirani di cui parli). NP=RP Questo è realmente visibile nel libro di Kearns-Vazirani (Teorema 3.3), dal momento chev'è un cercatore un'ipotesi coerente con classe ipotesi H = C . Vedi anche [1].LH=C
  2. Sconosciuto. L'algoritmo di Hanneke [2] è un algoritmo di apprendimento improprio. Se questo fattore di aggiuntivo ( 1 / ε ) nella complessità del campione possa essere rimosso per un corretto apprendimento PAC (informazioni teoricamente, ovvero accantonando qualsiasi requisito di efficienza computazionale) è ancora una domanda aperta. Cf. le domande aperte alla fine di [3]:log(1/ε)

    Classicamente, è ancora una domanda aperta se il fattore -fattore nel limite superiore di [1] per l' apprendimento PAC ( ε , δ ) -proper è necessario.log(1/ε)(ε,δ)

    (Anche la nota 1 nello stesso documento è pertinente)


[1] A. Blumer, A. Ehrenfeucht, D. Haussler e MK Warmuth. L'apprendimento e la dimensione Vapnik-Chervonenkis. Journal of the ACM, 36 (4): 929-965, 1989.

[2] S. Hanneke. La complessità ottimale del campione dell'apprendimento PAC. J. Mach. Imparare. Res. 17, 1, 1319-1333, 2016.

[3] S. Arunachalam e R. de Wolf. Ottimale complessità del campione quantistico di algoritmi di apprendimento. In Atti della 32a Conferenza sulla complessità computazionale (CCC), 2017.


È ipotizzato che il grafico dell'inclusione 1 di Haussler et al. è uno studente PAC così ottimale?
Aryeh,

@Aryeh non ne sono sicuro. Da quello che sono riuscito a trovare, Warmuth lo ha ipotizzato nel 2004. Non ne so altro.
Clemente C.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.