Sto applicando un algoritmo di foresta casuale come classificatore su un set di dati di microarray che sono divisi in due gruppi noti con migliaia di funzionalità. Dopo la corsa iniziale guardo l'importanza delle funzionalità ed eseguo di nuovo l'algoritmo dell'albero con le funzionalità più importanti 5, 10 e 20. Trovo che per tutte le funzionalità, le prime 10 e le 20 che la stima OOB del tasso di errore sia dell'1,19%, mentre per le prime 5 funzioni sia dello 0%. Questo mi sembra poco intuitivo, quindi mi chiedevo se potevi spiegare se mi sto perdendo qualcosa o sto usando la metrica sbagliata.
I usando un pacchetto randomForest in R con ntree = 1000, nodesize = 1 e mtry = sqrt (n)