Perché un albero insaccato / albero forestale casuale ha una propensione maggiore di un singolo albero decisionale?


11

Se consideriamo un albero decisionale completamente sviluppato (ovvero un albero decisionale non potato) ha una varianza elevata e una propensione bassa.

Le foreste insaccanti e casuali utilizzano questi modelli ad alta varianza e li aggregano al fine di ridurre la varianza e quindi migliorare l'accuratezza delle previsioni. Entrambe le foreste insaccanti e casuali utilizzano il campionamento Bootstrap e, come descritto in "Elementi di apprendimento statistico", ciò aumenta la distorsione nel singolo albero.

Inoltre, poiché il metodo Random Forest limita le variabili consentite su cui dividere in ciascun nodo, l'inclinazione per un singolo albero forestale casuale viene ulteriormente aumentata.

Pertanto, l'accuratezza della previsione viene aumentata solo se l'aumento della distorsione dei singoli alberi nelle foreste insaccanti e casuali non "sovrasta" la riduzione della varianza.

Questo mi porta alle due seguenti domande: 1) So che con il campionamento bootstrap avremo (quasi sempre) alcune delle stesse osservazioni nell'esempio bootstrap. Ma perché questo porta ad un aumento della distorsione dei singoli alberi nelle foreste insaccanti / casuali? 2) Inoltre, perché il limite delle variabili disponibili su cui dividere in ciascuna divisione porta a una maggiore distorsione nei singoli alberi nelle foreste casuali?

Risposte:


5

Accetterò la risposta 1) di Kunlun, ma solo per chiudere questo caso, qui darò le conclusioni sulle due domande che ho raggiunto nella mia tesi (che sono state entrambe accettate dal mio Supervisore):

1) Un numero maggiore di dati produce modelli migliori e poiché utilizziamo solo parte di tutti i dati di addestramento per addestrare il modello (bootstrap), si verifica una maggiore distorsione in ciascun albero (Copia dalla risposta di Kunlun)

2) Nell'algoritmo Random Forests, limitiamo il numero di variabili su cui dividere in ciascuna suddivisione - cioè limitiamo il numero di variabili con cui spiegare i nostri dati. Ancora una volta, si verifica una maggiore propensione per ogni albero.

Conclusione: entrambe le situazioni limitano la nostra capacità di spiegare la popolazione: prima limitiamo il numero di osservazioni, quindi limitiamo il numero di variabili su cui dividere in ciascuna divisione. Entrambe le limitazioni portano a una maggiore distorsione in ciascun albero, ma spesso la riduzione della varianza nel modello sovrastima l'aumento di distorsione in ciascun albero, e quindi le foreste insaccanti e casuali tendono a produrre un modello migliore di un solo albero decisionale.


-1

Le tue domande sono piuttosto semplici. 1) Un numero maggiore di dati produce un modello migliore, poiché si utilizza solo una parte di tutti i dati di allenamento per addestrare il modello (bootstrap), una distorsione maggiore è ragionevole. 2) Più spaccature significa alberi più profondi o nodi più puri. Questo in genere porta a una varianza elevata e a una distorsione ridotta. Se si limita la divisione, la varianza inferiore e il bias superiore.


4
Non compro abbastanza l'argomento per 1), dal momento che ogni campione di bootstrap è ugualmente probabile e il pregiudizio riguarda il comportamento del modello medio. Sembra che debba essere più sottile di così. Inoltre non credo che 2) affronti la domanda posta. Il poster non significa "limite di divisione" come in "crescere alberi meno profondi".
Matthew Drury,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.