La foresta casuale di Breiman utilizza il guadagno di informazioni o l'indice Gini?

Vorrei sapere se la foresta casuale di Breiman (foresta casuale nel pacchetto R randomForest) utilizza come criterio di suddivisione (criterio per la selezione degli attributi) guadagno di informazioni o indice Gini? Ho provato a scoprirlo su http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm e nella documentazione per il pacchetto randomForest in R. Ma l'unica cosa che ho trovato è che l'indice Gini può essere usato per calcolo a importanza variabile.

r random-forest entropy gini

— qualcuno
fonte

Mi chiedo anche se gli alberi della foresta casuale nel pacchetto randomForest siano binari o meno.

— Qualcuno il

Il pacchetto randomForest in R di A. Liaw è una porta del codice originale che è un mix di c-code (tradotto) del codice fortran rimanente e del codice wrapper R. Per decidere la migliore suddivisione complessiva tra punti di interruzione e variabili di mtry, il codice utilizza una funzione di punteggio simile a gini-gain:

$GiniGain(N,X)=Gini(N)-\frac{\lvert N_{1} \rvert }{\lvert N \rvert }Gini(N_{1})-\frac{\lvert N_{2} \rvert }{\lvert N \rvert }Gini(N_{2})$

$X$ $N$ $N_{1}$ $N_{2}$ $N$ $\lvert . \rvert$

$Gini(N)=1-\sum_{k=1}^{K}p_{k}^2$ $K$

$Gini(N)$

$\frac{\lvert N_{2} \rvert }{\lvert N \rvert }Gini(N_{2}) \propto |N_2| Gini(N_{2}) = |N_2| (1-\sum_{k=1}^{K}p_{k}^2 ) = |N_2| \sum \frac{nclass_{2,k}^2}{|N_2|^2}$

where $nclass_{1,k}$ is the class count of target-class k in daughter node 1. Notice $|N_2|$ is placed both in nominator and denominator.

removing the trivial constant $1-$ from equation such that best split decision is to maximize nodes size weighted sum of squared class prevalence...

score= $|N_1| \sum_{k=1}^{K}p_{1,k}^2 + |N_2| \sum_{k=1}^{K}p_{2,k}^2 = |N_1|\sum_{k=1}^{K}\frac{nclass_{1,k}^2}{|N_1|^2} + |N_2|\sum_{k=1}^{K}\frac{nclass_{2,k}^2}{|N_2|^2}$ $= \sum_{k=1}^{K}\frac{nclass_{2,k}^2}{1} |N_1|^{-1} + \sum_{k=1}^{K}\frac{nclass_{2,k}^2}{1} |N_1|^{-2}$ $= nominator_1/denominator_1 + nominator_2/denominator_2$

The implementation also allows for classwise up/down weighting of samples. Also very important when the implementation update this modified gini-gain, moving a single sample from one node to the other is very efficient. The sample can be substracted from nominators/denominators of one node and added to the others. I wrote a prototype-RF some months ago, ignorantly recomputing from scratch gini-gain for every break-point and that was slower :)

If several splits scores are best, a random winner is picked.

This answer was based on inspecting source file "randomForest.x.x.tar.gz/src/classTree.c" line 209-250

— Soren Havelund Welling
fonte