Vorrei eseguire una combinazione di sovracampionamento e sottocampionamento al fine di bilanciare il mio set di dati con circa 4000 clienti suddivisi in due gruppi, in cui uno dei gruppi ha una percentuale di circa il 15%.
Ho esaminato SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) e ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), ma entrambi creano nuovi campioni sintetici usando osservazioni esistenti e ad esempio kNN.
Tuttavia, poiché molti degli attributi associati ai clienti sono categorici, non penso che questa sia la strada giusta da percorrere. Ad esempio, molte delle mie variabili come Region_A e Region_B si escludono a vicenda, ma utilizzando kNN le nuove osservazioni possono essere inserite sia in Region_A sia in Region_B. Sei d'accordo che questo sia un problema?
In tal caso - come si fa a eseguire il sovracampionamento in R semplicemente duplicando le osservazioni esistenti? O è questo il modo sbagliato di farlo?