Saresti sorpreso di scoprire che 80/20 è un rapporto abbastanza comune, spesso indicato come principio di Pareto . Di solito è una scommessa sicura se si utilizza quel rapporto.
Tuttavia, a seconda della metodologia di addestramento / convalida utilizzata, il rapporto potrebbe cambiare. Ad esempio: se usi la convalida incrociata di 10 volte, finiresti con un set di validazione del 10% per ogni piega.
Sono state condotte delle ricerche su quale sia il giusto rapporto tra il set di training e il set di validazione :
La frazione di pattern riservata per il set di validazione dovrebbe essere inversamente proporzionale alla radice quadrata del numero di parametri regolabili liberi.
In conclusione, specificano una formula:
Set di convalida (v) su set di addestramento (t) rapporto dimensioni, v / t, scale come ln (N / h-max), dove N è il numero di famiglie di riconoscitori e h-max è la maggiore complessità di quelle famiglie.
Cosa significano per complessità è:
Ogni famiglia di riconoscitori è caratterizzata dalla sua complessità, che può o meno essere correlata alla dimensione VC , alla lunghezza della descrizione, al numero di parametri regolabili o ad altre misure di complessità.
Prendendo la prima regola empirica (il set di validazione dovrebbe essere inversamente proporzionale alla radice quadrata del numero di parametri regolabili liberi), puoi concludere che se hai 32 parametri regolabili, la radice quadrata di 32 è ~ 5,65, la frazione dovrebbe essere 1 / 5,65 o 0,177 (v / t). Circa il 17,7% dovrebbe essere riservato per la convalida e l'82,3% per la formazione.