Se ho una rete neurale convoluzionale (CNN), che ha circa 1.000.000 di parametri, quanti dati di addestramento sono necessari (supponiamo che stia facendo una pendenza stocastica)? C'è qualche regola empirica?
Note aggiuntive: quando ho eseguito la discesa gradiente stocastica (ad es. 64 patch per 1 iterazione), dopo ~ 10000 iterazioni, l'accuratezza del classificatore può raggiungere un valore approssimativo costante. Questo significa che non sono necessari molti dati? Come i dati 100k-1000k.