La mia domanda: dovrei fare CV anche per un set di dati relativamente grande?
Ho un set di dati relativamente grande e applicherò un algoritmo di apprendimento automatico al set di dati.
Dal momento che il mio PC non è veloce, il CV (e la ricerca della griglia) richiede a volte troppo tempo. In particolare un SVM non finisce mai a causa di molti parametri di ottimizzazione. Quindi, se faccio un CV, allora devo scegliere un dato relativamente piccolo.
D'altra parte, anche il set di validazione dovrebbe essere ampio, quindi penso che sia una buona idea usare un set di validazione che abbia le stesse (o maggiori) dimensioni del set di addestramento. (Vale a dire, invece di CV, utilizzo un ampio set di validazione per l'ottimizzazione dei parametri.)
Quindi ora ho almeno due opzioni.
- fare CV su un piccolo set di dati.
- utilizzare un set di addestramento relativamente grande e un set di validazione senza CV.
- altra idea.
Qual è la migliore idea? Le opinioni teoriche o pratiche sono entrambe benvenute.