Vorrei sapere se ci sono alcuni / alcuni vantaggi dell'utilizzo del campionamento stratificato anziché del campionamento casuale, quando si divide il set di dati originale in training e set di test per la classificazione.
Inoltre, il campionamento stratificato introduce più distorsioni nel classificatore rispetto al campionamento casuale?
L'applicazione, per la quale vorrei utilizzare il campionamento stratificato per la preparazione dei dati, è un classificatore di foreste casuali, formato su del set di dati originale. Prima del classificatore, c'è anche una fase di generazione di campioni sintetici (SMOTE [1]) che equilibra la dimensione delle classi.
[1] Chawla, Nitesh V., et al. " SMOTE: tecnica di sovracampionamento delle minoranze sintetiche. " Journal of Artificial Intelligence Research 16 (2002): 321-357.