La formula dimensionale Vapnik – Chervonenkis (VC) per le reti neurali varia da a , con nel peggiore dei casi, dove è il numero di bordi e è il numero di nodi. Il numero di campioni di addestramento necessari per avere una forte garanzia di generalizzazione è lineare con la dimensione VC.
Ciò significa che per una rete con miliardi di fronti, come nel caso di modelli di apprendimento profondo di successo, il set di dati di addestramento richiede nel migliore dei casi miliardi di campioni di addestramento, a quadrilioni nel caso peggiore. I più grandi set di addestramento attualmente contengono circa cento miliardi di campioni. Poiché non vi sono sufficienti dati di formazione, è improbabile che i modelli di apprendimento profondo si stiano generalizzando. Invece, stanno adattando troppo i dati di addestramento. Ciò significa che i modelli non funzioneranno bene su dati diversi dai dati di addestramento, che è una proprietà indesiderata per l'apprendimento automatico.
Data l'incapacità del deep learning di generalizzare, secondo l'analisi dimensionale VC, perché i risultati del deep learning sono così pubblicizzati? Avere semplicemente un'alta precisione su alcuni set di dati non significa molto in sé. C'è qualcosa di speciale nelle architetture di deep learning che riduce significativamente la dimensione VC?
Se non ritieni che l'analisi della dimensione VC sia pertinente, fornisci prove / spiegazioni che l'apprendimento profondo si sta generalizzando e non si adatta in modo adeguato. Cioè ha un buon richiamo E precisione, o solo un buon richiamo? Il richiamo al 100% è banale da raggiungere, così come la precisione al 100%. Avvicinarsi al 100% è molto difficile.
Come esempio contrario, ecco le prove che l'apprendimento profondo è troppo adeguato. Un modello overfit è facile da ingannare poiché ha incorporato il rumore deterministico / stocastico. Vedere la seguente immagine per un esempio di overfitting.
Inoltre, vedi le risposte classificate più basse a questa domanda per capire i problemi con un modello di overfit nonostante la buona precisione sui dati dei test.
Alcuni hanno risposto che la regolarizzazione risolve il problema di una grande dimensione VC. Vedi questa domanda per ulteriori discussioni.