Sono confuso su come partizionare i dati per la validazione incrociata k-fold dell'apprendimento d'insieme.
Supponendo di avere un quadro di apprendimento dell'ensemble per la classificazione. Il mio primo livello contiene i modelli di classificazione, ad esempio svm, alberi decisionali.
Il mio secondo livello contiene un modello di voto, che combina le previsioni del primo livello e fornisce la previsione finale.
Se utilizziamo la convalida 5 pieghe incrociate, sto pensando di utilizzare le 5 pieghe come segue:
- 3 pieghe per l'allenamento del primo strato
- 1 piega per l'allenamento del secondo strato
- 1 piega per il test
È questo il modo corretto? I dati di allenamento per il primo e il secondo livello dovrebbero essere indipendenti? Penso che dovrebbero essere indipendenti in modo che il quadro di apprendimento dell'ensemble sia solido.
Il mio amico suggerisce che i dati di allenamento per il primo e il secondo livello dovrebbero essere gli stessi, vale a dire
- 4 pieghe per l'allenamento del primo e del secondo strato
- 1 piega per il test
In questo modo avremo un errore più accurato del framework di apprendimento dell'ensemble e la messa a punto iterativa del framework sarà più accurata, poiché si basa su un singolo dato di training. Inoltre, il secondo strato può essere orientato verso i dati di allenamento indipendenti
Tutti i consigli sono molto apprezzati