Sto cercando di fare previsioni usando un modello di foresta casuale in R.
Tuttavia, ricevo errori poiché alcuni fattori hanno valori diversi nel set di test rispetto al set di training. Ad esempio, un fattore Cat_2
ha valori 34, 68, 76
, ecc., Nel set di test che non compaiono nel set di allenamento. Sfortunatamente, non ho il controllo sul set di test ... Devo usarlo così com'è.
La mia unica soluzione era quella di convertire i fattori problematici in valori numerici, usando as.numeric()
. Esso funziona ma io non sono molto soddisfatto, dal momento che questi valori sono codici che non hanno alcun senso numerico ...
Pensi che ci sarebbe un'altra soluzione, per eliminare i nuovi valori dal set di test? Ma senza rimuovere tutti gli altri valori dei fattori (diciamo valori 1, 2, 14, 32
, ecc.) Che si trovano sia in allenamento che in prova e contengono informazioni potenzialmente utili per le previsioni.