Definizione del modello di apprendimento PAC

Il modello di apprendimento probabilmente approssimativamente corretto (PAC) è definito come:

Una classe di concetti $C$ si dice che sia apprendibile dal PAC se esiste un algoritmo $A$ e una funzione polinomiale $poly(·,·,·,·)$ tale che per qualsiasi e , per tutte le distribuzioni su e per qualsiasi concetto target , vale per ogni dimensione del campione : $ε>0$ $δ>0$ $D$ $X$ $c∈C$ $m≥poly(1/ε,1/δ,n,size(c))$

$Pr[R(hs)≤ε]≥1-δ$

dove è l'errore di generalizzazione su un campione di dimensione contenente istanze della variabile seguito alla distribuzione e è il costo massimo della rappresentazione computazionale di . $R(hs)$ $S$ $m$ $X$ $D$ $size(c)$ $c∈C$

So che è un polinomio. Ma qual è la forma esplicita di ? Quali sono le variabili? Qual è il suo grado? $poly(1/ε,1/δ,n,size(c))$ $poly(1/ε,1/δ,n,size(c))$

machine-learning

— Asterion
fonte

Non ci sono vincoli su oltre che essere un polinomio, o più in generale, una funzione limitata polinomialmente (cioè una funzione limitata da un polinomio); la differenza non ha importanza in questo caso. Senza perdita di generalità, si può assumere che per qualche , . $poly(\cdot,\cdot,\cdot,\cdot)$ $A,B > 0$ $poly(x,y,z,w) = A(xyzw)^B$

La definizione sta cercando di modellare la situazione in cui è necessario solo un piccolo numero di campioni per apprendere il concetto. Per quantificare "piccolo", dobbiamo prima decidere in merito a quali quantità sarà piccola (in questo caso, ), e in secondo luogo, quanto è piccola " piccolo". In questo caso, definiamo "piccolo" qualsiasi funzione che cresce al massimo polinomialmente in . In altri casi abbiamo requisiti più severi, diciamo che vogliamo che "piccolo" sia polinomiale in . $\epsilon,\delta,n,size(c)$ $1/\epsilon,1/\delta,n,size(c)$ $\log \frac{1}{\epsilon}, \log \frac{1}{\delta}, n, size(c)$

Una definizione standard nella teoria della complessità è quella del tempo polinomiale. Diciamo che un algoritmo per risolvere alcuni problemi è efficace se su un input di dimensione viene eseguito nel tempo polinomiale in , cioè il suo tempo di esecuzione è limitato da un polinomio in . Nella tua terminologia, potremmo dichiararlo come per alcuni polinomi . Come prima, se per alcuni polinomiali , in realtà per alcuni , e quindi senza perdita di generalità noi può presumere che $n$ $n$ $T(n)$ $n$ $T(n) \leq poly(n)$ $n$ $T(n) \leq poly(n)$ $poly(\cdot)$ $T(n) \leq An^B$ $A,B>0$ $poly(n) = An^B$ . Ma noi non vogliamo decidere in anticipo sui valori di . Siamo felici fintanto che alcuni valori di funzionano. $A,B$ $A,B$

Il tuo caso è simile, solo il polinomio può dipendere da più quantità anziché da una sola.

— Yuval Filmus
fonte