Sono abbastanza nuovo per le foreste casuali. In passato, ho sempre confrontato l'accuratezza di adattamento vs test rispetto a adattamento vs treno per rilevare eventuali eccessi. Ma ho appena letto qui che:
"Nelle foreste casuali, non è necessaria la convalida incrociata o un set di test separato per ottenere una stima imparziale dell'errore del set di test. Viene stimato internamente, durante l'esecuzione ..."
Il piccolo paragrafo sopra si trova nella sezione Stima dell'errore out-of-bag (oob) . Questo concetto di errore Out of Bag è completamente nuovo per me e ciò che è un po 'confuso è come l'errore OOB nel mio modello sia del 35% (o 65% di precisione), ma tuttavia, se applico la convalida incrociata ai miei dati (solo un semplice controllo metodo) e confrontare sia fit che test con fit vs train ottengo rispettivamente una precisione del 65% e una precisione del 96%. Nella mia esperienza, questo è considerato un overfitting ma l'OOB ha un errore del 35% proprio come il mio errore fit vs test . Sono troppo adatto? Dovrei anche usare la validazione incrociata per verificare il sovradimensionamento nelle foreste casuali?
In breve, non sono sicuro che dovrei fidarmi dell'OOB per ottenere un errore imparziale dell'errore del set di test quando il mio fit vs train indica che sono troppo adatto !