Teorema del No-Free-Lunch e coerenza di K-NN

Nell'apprendimento computazionale, il teorema della NFL afferma che non esiste uno studente universale. Per ogni algoritmo di apprendimento, esiste una distribuzione che fa sì che lo studente produca un'ipotesi con un errore grande, con alta probabilità (sebbene ci sia un'ipotesi di errore bassa). La conclusione è che per imparare, la classe di ipotesi o le distribuzioni devono essere limitate. Nel loro libro "Una teoria probabilistica del riconoscimento di schemi", Devroye et al dimostrano il seguente theroem per lo studente dei vicini più vicini a K: Dove

Assumere μ ha una densità. Se K \to \infty e K / n \to 0 quindi per ogni ε > 0, c'è N, st per tutti n > N : P (R_{n} - R^{*} > ε) < 2 e X p (- C_{d} n ε^{2})

$\text{Assume } \mu \text{ has a density. if } k\to \infty \text{ and } k/n\to0 \\ \text{ then for every } \epsilon>0, \text{ there's } N, \text{ s.t.} \text{ for all } n>N : \\ P(R_n - R^* > \epsilon)< 2exp(-C_dn \epsilon ^{2})$

R^{*}

$R^*$ è l'errore della regola bayes-ottimale, è il vero errore dell'output K-NN (la probabilità è oltre l'insieme di training della dimensione ), è la misura di probabilità nello spazio dell'istanza e è una costante dipende solo dalla dimensione euclidea. Pertanto, possiamo avvicinarci quanto vogliamo alla migliore ipotesi che ci sia (non la migliore in una classe ristretta), senza fare alcuna ipotesi sulla distribuzione. Quindi sto cercando di capire come questo risultato non contraddica il theroem della NFL? Grazie!

R_{n}

$R_n$

n

$n$

μ

$\mu$

R^{d}

$\mathbb{R}^d$

C_{d}

$C_d$

k-nearest-neighbour consistency

— michael J
fonte

Il modo in cui capisco il teorema di NFL è che non esiste un algoritmo di apprendimento che sia migliore del resto in ogni compito. Questo non è tuttavia un teorema nel chiaro senso matematico che ha una dimostrazione, piuttosto un'osservazione empirica.

Simile a quello che hai detto per la kNN, esiste anche il Teorema di approssimazione universale per reti neurali, che afferma che, data una rete neurale a 2 strati, possiamo approssimare qualsiasi funzione con qualsiasi errore arbitrario.

Ora, in che modo questo non rompe la NFL? In sostanza afferma che è possibile risolvere qualsiasi problema immaginabile con un semplice NN a 2 strati. La ragione è che mentre teoricamente le NN possono approssimare qualsiasi cosa, in pratica è molto difficile insegnare loro ad approssimare qualsiasi cosa. Ecco perché per alcune attività sono preferibili altri algoritmi.

Un modo più pratico per interpretare NFL è il seguente:

Non è possibile determinare a priori quale algoritmo farà meglio per un determinato compito.

— CaucM
fonte

Grazie per la risposta, ma ci sono alcune inesattezze. Innanzitutto, il teorema della NFL ha una prova (ad esempio, shalev-shwartz e ben-david, comprensione dell'apprendimento automatico, capitolo 5). Per il teorema di approssimazione universale - questo teorema si occupa di espressività, mentre il teorema della NFL si occupa di generalizzazione.

— michael J,