Mi chiedo quale tipo di validazione incrociata del modello scegliere per il problema di classificazione: K-fold o sottocampionamento casuale (campionamento bootstrap)?
La mia ipotesi migliore è usare 2/3 del set di dati (che è ~ 1000 articoli) per l'allenamento e 1/3 per la convalida.
In questo caso K-fold fornisce solo tre iterazioni (pieghe), che non è sufficiente per vedere un errore medio stabile.
D'altra parte non mi piace la funzione di sottocampionamento casuale: che alcuni elementi non saranno mai selezionati per l'addestramento / convalida e alcuni verranno utilizzati più di una volta.
Algoritmi di classificazione utilizzati: foresta casuale e regressione logistica.