Risposte:
L'importanza delle variabili nella foresta casuale viene calcolata come segue:
Quindi, i valori di una singola colonna sono permutati e l'MSE viene nuovamente calcolato. Ad esempio, se una colonna (Col1) assume i valori 1,2,3,4 e una permutazione casuale dei valori risulta in 4,3,1,2. Ciò si traduce in un MSE1. Quindi un aumento dell'MSE, ovvero MSE1 - MSE, significherebbe l'importanza della variabile.
Ci aspettiamo che la differenza sia positiva, ma nei casi di un numero negativo, indica che la permutazione casuale ha funzionato meglio. Si può dedurre che la variabile non ha un ruolo nella previsione, cioè non è importante.
Spero che sia di aiuto!
Si prega di fare riferimento al seguente link per una spiegazione elaborata!
/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean
Questa potrebbe essere solo una fluttuazione casuale (ad esempio se si dispone di piccoli ntree).
Altrimenti, potrebbe mostrare che hai una certa quantità di paradossi nei tuoi dati, cioè coppie di oggetti con predittori quasi identici e risultati molto diversi. In questo caso, verificherei due volte se il modello ha davvero senso e inizierei a pensare come avrei potuto ottenere più attributi per risolverli.