Sto usando il pacchetto randomForest in R per sviluppare un modello di foresta casuale per cercare di spiegare un risultato continuo in un set di dati "ampio" con più predittori che campioni.
In particolare, sto inserendo un modello RF che consente alla procedura di selezionare da un insieme di ~ 75 variabili predittive che ritengo importanti.
Sto testando quanto quel modello prevede il risultato effettivo per un set di test riservato, usando l' approccio pubblicato qui in precedenza , ovvero
... o in R:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
Ma ora ho altre ~ 25 variabili predittive che posso aggiungere. Quando si utilizza il set di ~ 100 predittori, l'R² è maggiore. Voglio testarlo statisticamente, in altre parole, quando si utilizza l'insieme di ~ 100 predittori, il test del modello è significativamente migliore nei test dei dati rispetto all'adattamento del modello usando ~ 75 predittori. Vale a dire, l'R² dal test del modello RF si adatta sull'insieme di dati completo significativamente più elevato dell'R² dal test del modello RF sul set di dati ridotto.
Questo è importante per me testarlo, perché si tratta di dati pilota e ottenere quei 25 predittori extra è stato costoso e devo sapere se dovrei pagare per misurare quei predittori in uno studio di follow-up più ampio.
Sto cercando di pensare a una sorta di approccio di ricampionamento / permutazione ma non mi viene in mente nulla.