Ho lavorato sull'apprendimento automatico e la bioinformatica per un po ', e oggi ho avuto una conversazione con un collega sui principali problemi generali del data mining.
Il mio collega (che è un esperto di apprendimento automatico) ha affermato che, a suo avviso, l'aspetto pratico probabilmente più importante dell'apprendimento automatico è come capire se hai raccolto abbastanza dati per formare il tuo modello di apprendimento automatico .
Questa affermazione mi ha sorpreso, perché non avevo mai dato tanta importanza a questo aspetto ...
Ho quindi cercato ulteriori informazioni su Internet e ho trovato questo post sui rapporti di FastML.com come regola empirica di cui hai bisogno circa 10 volte più istanze di dati quante sono le funzionalità .
Due domande:
1 - Questo problema è davvero particolarmente rilevante nell'apprendimento automatico?
2 - La regola 10 volte funziona? Ci sono altre fonti pertinenti per questo tema?