Perché la potatura non è necessaria per alberi forestali casuali?


20

Breiman afferma che gli alberi sono coltivati ​​senza potatura. Perché? Voglio dire che ci deve essere una solida ragione per cui gli alberi nella foresta casuale non vengono potati. D'altra parte è considerato molto importante potare un singolo albero decisionale per evitare un eccesso di adattamento. C'è della letteratura disponibile da leggere per questo motivo? Naturalmente gli alberi potrebbero non essere correlati, ma ci sarà ancora la possibilità di un adattamento eccessivo.


Hai davvero bisogno di dire di più sul contesto qui. @ChrisA. ha fatto un notevole tentativo, ma è difficile sapere se la tua domanda ha davvero una risposta, perché è difficile sapere molto sul tuo dilemma.
gung - Ripristina Monica

2
Cos'altro bisogna dire? La domanda è molto chiara
Seanosapien,

Risposte:


20

In parole povere, alcuni dei potenziali adattamenti eccessivi che potrebbero verificarsi in un singolo albero (che è un motivo per cui si esegue la potatura in generale) sono mitigati da due cose in una foresta casuale:

  1. Il fatto che i campioni utilizzati per addestrare i singoli alberi siano "avviati".
  2. Il fatto che tu abbia una moltitudine di alberi casuali che usano caratteristiche casuali e quindi i singoli alberi sono forti ma non così correlati tra loro.

Modifica: in base al commento di OP di seguito:

C'è sicuramente ancora potenziale per un adattamento eccessivo. Per quanto riguarda gli articoli, puoi leggere la motivazione del "insaccamento" di Breiman e del "bootstrap" in generale di Efron e Tibshirani. Per quanto riguarda 2., Brieman ha derivato un errore allentato sull'errore di generalizzazione che è correlato alla forza dell'albero e all'anti-correlazione dei singoli classificatori. Nessuno usa il limite (molto probabilmente) ma ha lo scopo di dare intuizione su ciò che aiuta a ridurre l'errore di generalizzazione nei metodi di ensemble. Questo è nel documento stesso sulle foreste casuali. Il mio post era di spingerti nella giusta direzione sulla base di queste letture e della mia esperienza / detrazioni.

  • Breiman, L., Bagging Predictors, Machine Learning, 24 (2), pagg. 123-140, 1996.
  • Efron, B .; Tibshirani, R. (1993). Un'introduzione al bootstrap. Boca Raton, FL
  • Breiman, Leo (2001). "Foreste casuali". Apprendimento automatico 45 (1): 5–32.

Ma potrebbe esserci ancora la possibilità di un overfitting. Puoi citare un articolo da leggere per questo?
Z Khan,

@Z Khan Sei forse anche tu questo Z Khan ? In tal caso, faccelo sapere in modo che possiamo unire i tuoi account.
whuber

3
@ZKhan Il problema del sovradimensionamento nelle RF è trattato in Hastie et al, (2009) Elements of Statistical Learning, 2nd Edition . C'è un PDF gratuito disponibile sul sito Web per il libro. Dai un'occhiata al capitolo sulle foreste casuali.
Ripristina Monica - G. Simpson il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.