Per quanto ho visto, le opinioni tendono a differire su questo. Le migliori pratiche detterebbero certamente l'uso della convalida incrociata (soprattutto se si confrontano RF con altri algoritmi sullo stesso set di dati). D'altra parte, la fonte originale afferma che il fatto che l'errore OOB viene calcolato durante l'addestramento del modello è abbastanza un indicatore delle prestazioni del set di test. Perfino Trevor Hastie, in un colloquio relativamente recente, afferma che "Le foreste casuali forniscono una validazione incrociata gratuita". Intuitivamente, questo ha senso per me, se mi alleno e cerco di migliorare un modello basato su RF su un set di dati.
Qual è la tua opinione su questo?