Per continuare sulla falsariga della risposta di Deigo, i limiti standard della complessità del campione dalla teoria dell'apprendimento ti dicono che se sei soddisfatto di trovare un programma "approssimativamente corretto", non devi assolutamente provare molti punti. Diciamo che stiamo codificando i programmi in binario, quindi ci sono solo programmi di lunghezza d. Consente supponiamo anche che v'è una certa distribuzione su esempi di ingresso . Forse il tuo obiettivo è trovare un programma che sei quasi sicuro sia quasi giusto ("Probabilmente approssimativamente corretto", ad esempio come nel modello di apprendimento PAC dei Valiant). Cioè, si desidera eseguire un algoritmo che prenderà un piccolo numero di campioni insieme a e con probabilità almeno2dDx∼Df(x)(1−δ)uscita qualche programma che concorda con su almeno una frazione ingressi tratte da . Pf(1−ϵ)D
Disegneremo semplicemente esempi e genereremo qualsiasi programma di lunghezza che sia d'accordo con su tutti gli esempi. (Uno è garantito per esistere poiché supponiamo che abbia la complessità di Kolmogorov al massimo ) ...mx∼DP≤dffd
Qual è la probabilità che un particolare programma che non sia d'accordo con su più di una frazione di esempi sia coerente con gli esempi abbiamo selezionato? È al massimo . Vorremmo prendere questa probabilità di essere al massimo modo da poter prendere un'unione vincolata su tutti i programmi e dire che con probabilità almeno , nessun programma "cattivo" è coerente con i nostri esempi disegnati. Risolvendo, vediamo che è sufficiente prendere solo
esempi . (cioè solo linearmente molti nella complessità di Kolmogorov diPfϵm(1−ϵ)mδ/2d2d1−δ
m≥1ϵ(d+log1/δ)
f...)
A proposito, argomenti come questo possono essere usati per giustificare "Occam's Razor": dato un numero fisso di osservazioni, tra tutte le teorie che le spiegano, dovresti scegliere quella con la più bassa complessità di Kolmogorov, perché c'è la minima possibilità di overfitting.
Naturalmente, se si desidera controllare solo un singolo programma fisso in questo modo, sono necessari solo esempi ...O(log(1/δ)/ϵ)