Consideriamo il problema relativo alla classificazione del set di dati MNIST.
Secondo la pagina MNIST di Yann LeCun , "Ciresan et al." ha ottenuto un tasso di errore dello 0,23% sul set di test MNIST utilizzando la rete neurale convoluzionale.
Indichiamo l'allenamento MNIST impostato come , il test MNIST impostato come D t e s t , l'ipotesi finale che hanno ottenuto usando D t r a i n come h 1 e il loro tasso di errore sul test MNIST impostato usando h 1 come E t e s t ( h 1 ) = 0,0023 .
Nel loro punto di vista, poiché viene campionato a caso insieme di test dallo spazio di ingresso indipendentemente h 1 , possono insistere che out-of-sample agli errori del loro ipotesi finale E o u t ( h 1 ) è delimitata come seguendo dalla disuguaglianza di Hoeffding P [ | E o u t ( h 1 ) - E t e s t ( h 1 ) | < ϵ ≥ 1 dove N t e s t = | D t e s t | .
In altre parole, almeno la probabilità , E o u t ( h 1 ) ≤ E t e s t ( h 1 ) + √
Consideriamo un altro punto di vista. Supponiamo che una persona voglia classificare bene il test MNIST. Quindi ha prima guardato la pagina MNIST di Yann LeCun e ha trovato i seguenti risultati ottenuti da altre persone usando 8 modelli diversi,
Questo risultato implica che potrebbe esserci un overfitting sul set di test se scegliamo che il modello funziona meglio tra diversi modelli.
sia un'ipotesi sovradimensionata sul set di test MNIST.
Consequently, we got two inequalities
Howerver, it is obvious that these two inequalities are incompatible.
Where am I doing wrong? Which one is right and which one is wrong?
If the latter is wrong, what is the right way to apply the VC bound for finite hypothesis sets in this case?