Funzioni non calcolabili in modo efficiente ma apprendibili


28

Sappiamo che (vedi, ad esempio, Teoremi 1 e 3 di [1]), approssimativamente parlando, in condizioni adeguate, le funzioni che possono essere calcolate in modo efficiente dalla macchina di Turing in tempo polinomiale ("calcolabile in modo efficiente") possono essere espresse da reti neurali polinomiali con dimensioni ragionevoli, e quindi può essere appreso con complessità campionaria polinomiale ("apprendibile") sotto qualsiasi distribuzione di input.

Qui "apprendibile" riguarda solo la complessità del campione, indipendentemente dalla complessità computazionale.

Mi chiedo un problema strettamente correlato: esiste una funzione che non può essere calcolata in modo efficiente dalla macchina di Turing nel tempo polinomiale ("non calcolabile in modo efficiente"), ma nel frattempo può essere appresa con la complessità del campione polinomiale ("apprendibile") sotto eventuali distribuzioni di input?


4
Metto in discussione "e quindi si può imparare". Ci sono funzioni calcolabili in modo molto efficiente (ad esempio DFA) che sono MOLTO difficili da imparare, anche approssimativamente.
Aryeh,

3
Questo probabilmente manca il punto, ma per quanto riguarda la classe di (diciamo) Funzioni booleane basate su n ? (Vale a dire, più o meno, una funzione casuale con ciascun valore indipendente1con probabilità2-2n1 ). Per qualsiasiε>2-2n , l'apprendimento PAC sotto la distribuzione uniforme è banale (0 campione necessario, la funzione costante0è una buona ipotesi), ma sembra che qualsiasi algoritmo di valutazione dovrebbe impiegare tempo superpolinomiale (poiché non esiste una struttura per la funzione). Molto probabilmente sto fraintendendo la domanda, però. ε>2n0
Clemente C.,

3
La tua terminologia è un po 'confusa. Quando diciamo "efficacemente apprendibile", di solito ci riferiamo all'efficienza computazionale. Basta dire "apprendibile" è sufficiente per implicare l'efficienza del campione.
Lev Reyzin

1
@Minkov Per imparare PAC, dovresti imparare riguardo a qualsiasi distribuzione. Altrimenti la domanda non è interessante (come sottolinea Clemente).
Lev Reyzin

2
Perché le persone che votano per chiudere? Penso che questa sia una domanda profonda e sottile!
Aryeh,

Risposte:


11

Formalizzerò una variante di questa domanda in cui "efficienza" è sostituita da "calcolabilità".

Sia Cn la classe concettuale di tutte le lingue LΣ riconoscibile dalle macchine di Turing su n stati o meno. In generale, per xΣ e fCn , il problema della valutazione di f(x) è indecidibile.

Tuttavia, supponiamo di avere accesso a un (adeguato, realizzabile) PAC-learning oracolo A per Cn . Cioè, per ogni ϵ,δ>0 , l'oracolo richiede un campione etichettato di dimensioni m0(n,ϵ,δ) tale che, supponendo che un tale campione sia stato estratto da una distribuzione sconosciuta D , l'oracolo A fornisce un'ipotesi fC n che, con probabilità almeno 1 - δ , ha Df^Cn1δD-errore di generalizzazione non superiore a ϵ . Mostreremo che questo oracolo non è calcolabile da Turing.

In realtà, mostriamo che un problema più semplice è indecidibile: Uno di determinare, dato un campione marcato S , se esiste un fCn coerenti con S . Supponiamo (per ottenere una contraddizione) che K sia una macchina di Turing che decide il problema della coerenza.

Facciamo le seguenti convenzioni notazionali. Identifica Σ con N={0,1,2,} tramite il solito ordinamento lessicografico. Per x{0,1} , diciamo che una TM M "S-stampa" x se accetta tutte le stringhe in Σ corrispondenti agli indici i st xi=1 e non accetta (possibilmente non arresto) una qualsiasi delle stringhe corrispondenti agli indici xi=0 . Poiché (per ipotesi)K è decidibile, ne consegue che la funzioneK~:xk , definita come lak più piccola in modotale che alcune TM inCk S-printx , sia calcolabile su Turing. Ne consegue inoltre che la funzione g:kx , che mappa unakN alla stringa minima (lessicograficamente)x{0,1} tale cheK~(x)>k , è anche calcolabile.

Definire la TM M come segue: M S-stampe g(|M|) , dove M è la codifica di M , |x|denota lunghezza della stringa, e il teorema ricorsione viene richiamato per affermare l'esistenza di tale M . Quindi M ha una certa lunghezza di codifica, =|M|e S-stampa una stringa, xM{0,1}. Per costruzione, K~(xM)> , quindi xM non può essere stampato a S da nessuna TM con lunghezza descrittiva o inferiore. Eppure è definito come l'output S-print di una TM con lunghezza descrittiva --- una contraddizione.


2
Sfida: converti il ​​mio argomento "infinito" tramite la calcolabilità in un argomento definitivo tramite l'efficienza. Penso che la risposta alla domanda di @ minkov sia negativa: non puoi imparare in modo efficiente una classe di funzioni che non puoi valutare in modo efficiente. Penso che questo continuerà ad essere vero se passi oltre PAC corretto o realizzabile.
Aryeh,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.