In una foresta casuale,% IncMSE maggiore è migliore o peggiore?


17

Dopo aver creato un modello di foresta casuale (regressione) in R, la chiamata rf$importancemi fornisce due misure per ciascuna variabile predittore %IncMSEe IncNodePurity. L'interpretazione secondo cui le variabili predittive con %IncMSEvalori minori sono più importanti delle variabili predittive con %IncMSEvalori maggiori ?

Che ne dici di IncNodePurity?

Risposte:


30

% IncMSE è la misura più solida e informativa. È l'aumento del mse delle previsioni (stimato con CV out-of-bag) come risultato della permutazione della variabile j (valori mescolati casualmente).

  1. crescere foresta di regressione. Calcola OOB-mse, chiama questo mse0.
  2. da 1 a j var: permuta i valori della colonna j, quindi prevedi e calcola OOB-mse (j)
  3. % IncMSE di j'th è (mse (j) -mse0) / mse0 * 100%

il numero più alto, più importante

IncNodePurity si riferisce alla funzione di perdita che viene scelta dalla migliore divisione. La funzione di perdita è falsa per regressione e gini-impurità per la classificazione. Le variabili più utili ottengono aumenti più elevati nella purezza dei nodi, vale a dire trovare una divisione che ha un'alta "varianza" tra i nodi e una "varianza" all'interno dei piccoli nodi. IncNodePurity è distorto e dovrebbe essere utilizzato solo se il tempo di calcolo aggiuntivo del calcolo di% IncMSE è inaccettabile. Dal momento che ci vuole solo ~ 5-25% di tempo in più per calcolare% IncMSE, questo non accadrebbe quasi mai.

Una domanda e una risposta simili

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.