Quando si costruisce un modello CART (in particolare l'albero di classificazione) utilizzando rpart (in R), è spesso interessante sapere qual è l'importanza delle varie variabili introdotte nel modello.
Pertanto, la mia domanda è: quali misure comuni esistono per classificare / misurare l'importanza delle variabili partecipanti in un modello CART? E come può essere calcolato usando R (ad esempio, quando si usa il pacchetto rpart)
Ad esempio, ecco un codice fittizio, creato in modo da poter mostrare le tue soluzioni su di esso. Questo esempio è strutturato in modo tale che sia chiaro che le variabili x1 e x2 sono "importanti" mentre (in un certo senso) x1 è più importante di x2 (poiché x1 dovrebbe applicarsi a più casi, quindi influenzare maggiormente la struttura dei dati, quindi x2).
set.seed(31431)
n <- 400
x1 <- rnorm(n)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
x5 <- rnorm(n)
X <- data.frame(x1,x2,x3,x4,x5)
y <- sample(letters[1:4], n, T)
y <- ifelse(X[,2] < -1 , "b", y)
y <- ifelse(X[,1] < 0 , "a", y)
require(rpart)
fit <- rpart(y~., X)
plot(fit); text(fit)
info.gain.rpart(fit) # your function - telling us on each variable how important it is
(i riferimenti sono sempre ben accetti)