Apprendimento agnostico su distribuzioni arbitrarie


11

D{0,1}d×{0,1}Cf:{0,1}d{0,1}fCO P T ( C , D ) = min f C e r r ( f , D )

err(f,D)=Pr(x,y)D[f(x)y]
OPT(C,D)=minfC err(f,D)
Supponiamo che un algoritmo A apprenda agnosticamente C su qualsiasi distribuzione, se per qualsiasi D può con probabilità 2/3 trovare una funzione f tale che err(f,D)OPT(C,D)+ϵ , dato il tempo e un numero di campioni da D che è delimitato da un polinomio in d e 1/ϵ .

Domanda: Quali classi di funzioni C sono note per essere agnosticamente apprendibili su distribuzioni arbitrarie?

Nessuna lezione è troppo semplice! So che anche le congiunzioni monotone non sono note per essere agnosticamente apprendibili su distribuzioni arbitrarie, quindi sto solo cercando classi di funzioni non banali.


vale la pena sottolineare per chi non lo sapesse che l'apprendimento agnostico si concentra sul caso quando OPT (C, D)> 0 (ovvero hai una classe di ipotesi sbagliata
Suresh Venkat

Buon punto. Nel caso speciale in cui OPT (C, D) = 0, questo è l'apprendimento PAC ed è molto più semplice. Per l'apprendimento agnostico, la garanzia deve essere valida indipendentemente dall'OPT (C, D).
Aaron Roth,

C'è anche il caso "PAC w / Classification Noise" in cui OPT (C, D)> 0, e anche se hai la giusta classe di ipotesi (impostazione realizzabile) c'è qualche errore perché le etichette vengono capovolte casualmente a causa del rumore ... I vorrei che i nomi delle diverse impostazioni fossero meno confusi.
Lev Reyzin

sembra un apprendimento agnostico con un limite superiore all'OPT (C, D)
Suresh Venkat,

Non proprio, perché il rumore non può essere arbitrario nel modello di rumore di classificazione. Quindi, se ci fosse qualche modello di rumore avverso che rendeva difficile l'apprendimento (o la ricerca del minimizzatore del rischio empirico) nel modello agnostico, potrebbe non accadere spesso nel modello di rumore di classificazione (cioè cadere nel parametro delta PAC).
Lev Reyzin

Risposte:


9

Se nessuna lezione è troppo semplice, ecco alcune lezioni apprendibili agnosticamente PAC. In risposta ai commenti, vengono cancellate le classi con molte ipotesi polinomiali:

  • alberi decisionali a profondità costante (e altre classi con solo molte ipotesi)
  • iperpiani in (solo ipotesi producono etichette distinte) O ( n 2 )R2O(n2)
  • unioni di intervalli (programmazione dinamica)
  • parità su alcuni dei primi di bit (vedi questo e questo )nlog(k)loglog(k)n
  • altre classi di ipotesi in contesti a bassa dimensione.

Praticamente tutto il resto è NP-difficile da imparare (almeno correttamente) agnosticamente PAC.

Anche il tutorial di Adam Kalai sull'apprendimento agnostico potrebbe interessarti.


Grazie. Quindi gli alberi decisionali a profondità costante, iperpiani bidimensionali (presumo le altre impostazioni a bassa dimensione a cui ti riferisci) rientrano tutti nella categoria di avere solo polinomialmente molte funzioni, che possono essere apprese dall'esaurimento. Le parità sui bit di log (k) loglog (k) e sulle unioni di intervalli sono interessanti in quanto contengono superpolinomialmente molte funzioni. Ce ne sono altri come questi?
Aaron Roth,

Bene, sebbene ci siano infiniti iperpiani in R ^ 2, solo O (n ^ 2) ha classificato i dati in modo diverso. Non conosco altre lezioni interessanti dalla parte superiore della mia testa, ma se penso / trovo qualcuno, modificherò la mia risposta.
Lev Reyzin

quindi vuoi classi di dimensione VC illimitate?
Suresh Venkat,

la dimensione VC illimitata sarebbe certamente interessante, ma le classi finite di grandi dimensioni (per la d fissa) sono già estremamente interessanti (e sembrano essere rare)
Aaron Roth

1
@LevReyzin Il link delle lezioni di Kalai non funziona. Potresti gentilmente aggiustarlo? Ho cercato in rete ma non sono riuscito a trovarlo.
Anirbit
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.