L'errore Out of Bag rende il CV non necessario nelle foreste casuali?


15

Sono abbastanza nuovo per le foreste casuali. In passato, ho sempre confrontato l'accuratezza di adattamento vs test rispetto a adattamento vs treno per rilevare eventuali eccessi. Ma ho appena letto qui che:

"Nelle foreste casuali, non è necessaria la convalida incrociata o un set di test separato per ottenere una stima imparziale dell'errore del set di test. Viene stimato internamente, durante l'esecuzione ..."

Il piccolo paragrafo sopra si trova nella sezione Stima dell'errore out-of-bag (oob) . Questo concetto di errore Out of Bag è completamente nuovo per me e ciò che è un po 'confuso è come l'errore OOB nel mio modello sia del 35% (o 65% di precisione), ma tuttavia, se applico la convalida incrociata ai miei dati (solo un semplice controllo metodo) e confrontare sia fit che test con fit vs train ottengo rispettivamente una precisione del 65% e una precisione del 96%. Nella mia esperienza, questo è considerato un overfitting ma l'OOB ha un errore del 35% proprio come il mio errore fit vs test . Sono troppo adatto? Dovrei anche usare la validazione incrociata per verificare il sovradimensionamento nelle foreste casuali?

In breve, non sono sicuro che dovrei fidarmi dell'OOB per ottenere un errore imparziale dell'errore del set di test quando il mio fit vs train indica che sono troppo adatto !


OOB può essere utilizzato per determinare gli iperparametri. A parte questo, per me, al fine di stimare le prestazioni di un modello, si dovrebbe usare la validazione incrociata.
Metariat,

@Matemattica quando parli di iperparametri di cosa stai parlando esattamente?
Ci

numero di alberi e di elementi selezionati casualmente ad ogni iterazione
Metariat

So che questa è una domanda completamente diversa, ma come si determina il numero di alberi e il campione di funzionalità per ogni iterazione da un errore?
jgozal,

1
Può essere che questo possa aiutare: stats.stackexchange.com/a/112052/78313 In generale non ho mai visto una differenza del genere in RF!
Metariat,

Risposte:


21
  • l'errore di addestramento (come in predict(model, data=train)) è generalmente inutile. A meno che non si esegua una potatura (non standard) degli alberi, non può essere molto superiore a 0 in base alla progettazione dell'algoritmo . La foresta casuale utilizza l'aggregazione bootstrap di alberi decisionali, che sono noti per essere troppo adatti. Questo è come un errore di addestramento per un classificatore 1 vicino più vicino.

  • 1e

    Quindi l'errore out-of-bag non è esattamente lo stesso (meno alberi per l'aggregazione, più copie di casi di addestramento) di un errore di convalida incrociata, ma per scopi pratici è abbastanza vicino.

  • Ciò che avrebbe senso guardare al fine di rilevare un overfitting è il confronto tra errore out-of-bag e una validazione esterna. Tuttavia, a meno che non si conosca il clustering nei dati, un "semplice" errore di convalida incrociata sarà soggetto allo stesso pregiudizio ottimistico dell'errore out-of-bag: la suddivisione viene eseguita secondo principi molto simili.
    Dovresti confrontare la convalida out-of-bag o incrociata con l'errore per un esperimento di test ben progettato per rilevare questo.


11

L'errore out-of-bag è utile e può sostituire altri protocolli di stima delle prestazioni (come la convalida incrociata), ma dovrebbe essere usato con cura.

Come la convalida incrociata, la stima delle prestazioni utilizzando campioni out-of-bag viene calcolata utilizzando dati che non sono stati utilizzati per l'apprendimento. Se i dati sono stati elaborati in modo da trasferire informazioni tra campioni, la stima sarà (probabilmente) distorta. Semplici esempi che vengono in mente stanno eseguendo la selezione delle funzioni o l'assegnazione di valori mancanti. In entrambi i casi (e in particolare per la selezione delle funzionalità) i dati vengono trasformati utilizzando le informazioni dell'intero set di dati, influenzando la stima.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.