La modellazione con foreste casuali richiede una convalida incrociata?

Per quanto ho visto, le opinioni tendono a differire su questo. Le migliori pratiche detterebbero certamente l'uso della convalida incrociata (soprattutto se si confrontano RF con altri algoritmi sullo stesso set di dati). D'altra parte, la fonte originale afferma che il fatto che l'errore OOB viene calcolato durante l'addestramento del modello è abbastanza un indicatore delle prestazioni del set di test. Perfino Trevor Hastie, in un colloquio relativamente recente, afferma che "Le foreste casuali forniscono una validazione incrociata gratuita". Intuitivamente, questo ha senso per me, se mi alleno e cerco di migliorare un modello basato su RF su un set di dati.

Qual è la tua opinione su questo?

— neurone
fonte

questo non affronta il punto principale della domanda, ma probabilmente vorrai comunque convalidare in modo incrociato i parametri secondari (come la profondità degli alberi, ecc.)

— Wouter,

È possibile utilizzare RF o confrontarlo con altri approcci in termini di prestazioni sul set di addestramento oppure utilizzare un sottoinsieme indipendente di dati per testare le prestazioni. È una domanda della tua ipotesi: stai cercando di generalizzare i risultati a una popolazione più ampia o semplicemente di classificare i dati a portata di mano, piuttosto che una proprietà di RF.

— Katya,

$1-(1-\frac{1}{N})^N \approx 1-e^{-1} \approx 0.6$

Come sottolinea @Wouter, probabilmente vorrai fare una validazione incrociata per l'ottimizzazione dei parametri, ma come stima dell'errore del set di test l'errore OOB dovrebbe andare bene.

— Einar
fonte