Importanza variabile casuale Valori negativi delle foreste


Risposte:


5

L'importanza delle variabili nella foresta casuale viene calcolata come segue:

  1. Inizialmente, MSE del modello viene calcolato con le variabili originali
  2. Quindi, i valori di una singola colonna sono permutati e l'MSE viene nuovamente calcolato. Ad esempio, se una colonna (Col1) assume i valori 1,2,3,4 e una permutazione casuale dei valori risulta in 4,3,1,2. Ciò si traduce in un MSE1. Quindi un aumento dell'MSE, ovvero MSE1 - MSE, significherebbe l'importanza della variabile.

  3. Ci aspettiamo che la differenza sia positiva, ma nei casi di un numero negativo, indica che la permutazione casuale ha funzionato meglio. Si può dedurre che la variabile non ha un ruolo nella previsione, cioè non è importante.

Spero che sia di aiuto!

Si prega di fare riferimento al seguente link per una spiegazione elaborata!

/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean


3

Questa potrebbe essere solo una fluttuazione casuale (ad esempio se si dispone di piccoli ntree).

Altrimenti, potrebbe mostrare che hai una certa quantità di paradossi nei tuoi dati, cioè coppie di oggetti con predittori quasi identici e risultati molto diversi. In questo caso, verificherei due volte se il modello ha davvero senso e inizierei a pensare come avrei potuto ottenere più attributi per risolverli.


2
Potresti approfondire un po 'di più i "paradossi nei dati"? Non ho seguito del tutto e vorrei capire cosa stai spiegando.
JEquihua
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.