Fai una domanda a uno statistico e la sua risposta sarà una sorta di "dipende".
Dipende . A parte il tipo di modello (buon punto cbeleites!), Il numero di set point di allenamento e il numero di predittori? Se il modello è per la classificazione, uno squilibrio di classe elevata mi farebbe aumentare il numero di ripetizioni. Inoltre, se dovessi ricampionare una procedura di selezione delle caratteristiche, mi sarei orientato verso più campioni.
Per qualsiasi metodo di ricampionamento utilizzato in questo contesto, ricorda che (diversamente dal bootstrap classico), hai solo bisogno di iterazioni sufficienti per ottenere una stima "abbastanza precisa" della media della distribuzione. Questo è soggettivo ma qualsiasi risposta sarà.
Attenersi alla classificazione con due classi per un secondo, supponiamo che tu preveda / speri che l'accuratezza del modello sia di circa 0,80. Poiché il processo di ricampionamento sta campionando la stima dell'accuratezza (diciamo p), l'errore standard sarebbe sqrt[p*(1-p)]/sqrt(B)dove si Btrova il numero di campioni. Per B = 10, l'errore standard dell'accuratezza è di circa 0,13 e con B = 100esso di circa 0,04. È possibile utilizzare quella formula come guida approssimativa per questo caso particolare.
Considera anche che, in questo esempio, la varianza dell'accuratezza viene massimizzata quanto più ti avvicini a 0,50, quindi un modello accurato dovrebbe richiedere meno repliche poiché l'errore standard dovrebbe essere inferiore rispetto ai modelli che sono discenti deboli.
HTH,
Max