Set di validazione più grandi forniscono stime più accurate delle prestazioni fuori campione. Ma come hai notato, ad un certo punto tale stima potrebbe essere accurata come ne hai bisogno e puoi fare delle previsioni approssimative sulla dimensione del campione di validazione che devi raggiungere per raggiungere quel punto.
Per una semplice precisione di classificazione corretta / errata, è possibile calcolare l'errore standard della stima come (deviazione standard di una variabile di Bernouilli), dovepè la probabilità di una classificazione corretta enè la dimensione dell'insieme di convalida. Ovviamente non conoscip, ma potresti avere qualche idea della sua portata. Ad esempio, supponiamo che ti aspetti una precisione tra il 60-80% e desideri che le tue stime abbiano un errore standard inferiore allo 0,1%:
√p ( 1 - p ) / n---------√pnp
Quanto dovrebbe essere granden(la dimensione del set di validazione)? Perp=0,6otteniamo:
n> 0,6 - 0,6 2
p ( 1 - p ) / n---------√< 0,001
np = 0.6
Per
p=0,8otteniamo:
n>0,8-0,82n > 0,6 - 0,620.0012= 240 , 000
p = 0,8
Quindi questo ci dice che potresti cavartela usando meno del 5% dei tuoi 5 milioni di campioni di dati, per la validazione. Questa percentuale diminuisce se si prevedono prestazioni più elevate, o soprattutto se si è soddisfatti di un errore standard inferiore della stima delle prestazioni fuori campione (ad es. Con
p=0,7e per un valore <1%, sono necessari solo 2100 campioni di convalida o meno del ventesimo per cento dei dati).
n > 0,8 - 0,820.0012= 160 , 000
p = 0,7
Questi calcoli mostrano anche il punto sollevato da Tim nella sua risposta, secondo cui l'accuratezza delle tue stime dipende dalla dimensione assoluta del tuo set di validazione (cioè su ), piuttosto che dalla sua dimensione rispetto al set di training.n
(Potrei anche aggiungere che sto assumendo un campionamento rappresentativo qui. Se i tuoi dati sono molto eterogenei, potresti aver bisogno di utilizzare set di validazione più grandi solo per assicurarti che i dati di validazione includano tutte le stesse condizioni, ecc. Dei dati del treno e dei test. )