Mentre leggo il sito, la maggior parte delle risposte suggerisce che la validazione incrociata dovrebbe essere fatta negli algoritmi di machine learning. Tuttavia, mentre stavo leggendo il libro "Capire l'apprendimento automatico", ho visto che esiste un esercizio che a volte è meglio non usare la convalida incrociata. Sono veramente confuso. Quando l'algoritmo di training su tutti i dati è meglio della validazione incrociata? Succede in set di dati reali?
Lasciate be k classi di ipotesi. Supponiamo che si è data m IID formazione esempi e volete imparare la classe H = ∪ k i = 1 H i . Considera due approcci alternativi:
Impara sugli esempi m usando la regola ERM
Dividi gli esempi m in un set di allenamento di dimensioni un set di validazione di dimensioni α m , per alcuni α ∈ ( 0 , 1 ) . Quindi, applicare l'approccio della selezione del modello utilizzando la convalida. Cioè, prima treno ogni classe H i sui ( 1 - α ) m esempi di addestramento utilizzando la regola ERM rispetto a H i , e lasciare che h 1 , ... , h ksiano le ipotesi risultanti. In secondo luogo, applicare la regola ERM rispetto alla classe infinita { h 1 , ... , h k } sulle α m esempi di validazione.
Descrivere gli scenari in cui il primo metodo è migliore del secondo e viceversa.