I miei ringraziamenti ad Aryeh per avermi portato questa domanda alla mia attenzione.
Come altri hanno già detto, la risposta a (1) è Sì , e il semplice metodo di minimizzazione del rischio empirico in C raggiunge la complessità del campione O((d/ε)log(1/ε)) (vedi Vapnik e Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler e Warmuth, 1989).
Per quanto riguarda (2), è infatti noto che esistono spazi C
cui nessun algoritmo di apprendimento adeguato raggiunge una complessità campione migliore di Ω ( ( d/ ε)log( 1 / ε ) ) , e quindi l'apprendimento corretto non può raggiungere la O ( d/ ε) ottimale ( d / ε ) complessità del campione. Per quanto ne so, questo fatto non è mai stato effettivamente pubblicato, ma è radicato in un argomento correlato di Daniely e Shalev-Shwartz (COLT 2014) (originariamente formulato per una domanda diversa, ma correlata, nell'apprendimento multiclasse).
Si consideri il caso semplice d= 1 , e mettere lo spazio X come { 1 , 2 , . . . , 1 / ε } , e C sono i caratteri singolari fz( x ) : = I [ x = z] , z∈ X : ovvero, ogni classificatore in C classifica esattamente un punto da X come 1 e gli altri come 0. Per il limite inferiore, prendi la funzione target come singleton casuale fX* , dove X*∼ U n i fo r m ( X) e P , la distribuzione marginale di X , è uniforme su X∖ { x*} . Ora lo studente non vede mai alcun esempio etichettato 1 , ma deve scegliere un punto z per indovinare è etichettato 1 (soprattutto, la funzione `` tutto zero '' non è in C, In modo che qualsiasi studente corretta deve indovinare qualche z ), e fino a quando non ha visto tutti i punti in X∖ { x*} ha almeno 1 / 2 possibilità di indovinare sbagliato (cioè la probabilità a posteriori del suo fz avendo z≠ x* è almeno 1 / 2 ). L'argomento coupon collector implica che richiederebbe Ω((1/ε)log(1/ε))esempi per vedere ogni punto in X∖{x∗} . Quindi questo dimostra un limite inferiore di Ω((1/ε)log(1/ε)) per tutti gli studenti corretti.
Per generale d>1 , prendiamo X come {1,2,...,d/(4ε)} , prendi C come classificatori IA per gli insiemi A⊂X di dimensioni esattamente d , scegli la funzione bersaglio a caso da C e prendi nuovamente P come uniforme solo sui punti che la funzione bersaglio classifica 0 ( così lo studente non vede mai un punto etichettato 1). Quindi una generalizzazione dell'argomento coupon-collector implica che abbiamo bisogno di campioni Ω((d/ε)log(1/ε)) per vedere almeno |X|−2d punti distinti da X , e senza vedere questo molti punti distinti qualsiasi studente corretto ha almeno 1/3 possibilità di ottenere maggiore di d/4 della sua congettura A delle d punti di sbagliato nella sua ipotesi prescelta hA, il che significa che il suo tasso di errore è maggiore di ε . Quindi, in questo caso, non esiste uno studente appropriato con complessità del campione inferiore a Ω((d/ε)log(1/ε)) , il che significa che nessuno studente appropriato raggiunge la complessità ottimale del campione O(d/ε) .
Si noti che il risultato è abbastanza specifico per lo spazio C costruito. Esistono spazi C cui i discenti corretti possono raggiungere la complessità ottimale del campione O ( d/ ε) , e in effetti anche l'esatta espressione completa O ( ( d/ ε)+(1 / ε)log( 1 / δ) ) da ( Hanneke, 2016a). Alcuni limiti superiori e inferiori per gli studenti di ERM generali sono stati sviluppati in (Hanneke, 2016b), quantificati in termini di proprietà dello spazio C, oltre a discutere alcuni casi più specializzati in cui a volte specifici discenti corretti possono raggiungere la complessità ottimale del campione.
Riferimenti:
Vapnik e Chervonenkis (1974). Teoria del riconoscimento dei modelli. Nauka, Mosca, 1974.
Blumer, Ehrenfeucht, Haussler e Warmuth (1989). L'apprendimento e la dimensione Vapnik-Chervonenkis. Journal of the Association for Computing Machinery, 36 (4): 929-965.
Daniely e Shalev-Shwartz (2014). Studenti ottimali per problemi multiclasse. Negli atti della 27a Conferenza sulla teoria dell'apprendimento.
Hanneke (2016a). La complessità ottimale del campione di PAC Learning. Journal of Machine Learning Research, Vol. 17 (38), pagg. 1-15.
Hanneke (2016b). Limiti di errore raffinato per diversi algoritmi di apprendimento. Journal of Machine Learning Research, Vol. 17 (135), pagg. 1-55.