Vantaggi del campionamento stratificato vs casuale per la generazione di dati di allenamento in classificazione

Vorrei sapere se ci sono alcuni / alcuni vantaggi dell'utilizzo del campionamento stratificato anziché del campionamento casuale, quando si divide il set di dati originale in training e set di test per la classificazione.

Inoltre, il campionamento stratificato introduce più distorsioni nel classificatore rispetto al campionamento casuale?

L'applicazione, per la quale vorrei utilizzare il campionamento stratificato per la preparazione dei dati, è un classificatore di foreste casuali, formato su del set di dati originale. Prima del classificatore, c'è anche una fase di generazione di campioni sintetici (SMOTE [1]) che equilibra la dimensione delle classi. $\frac{2}{3}$

[1] Chawla, Nitesh V., et al. " SMOTE: tecnica di sovracampionamento delle minoranze sintetiche. " Journal of Artificial Intelligence Research 16 (2002): 321-357.

— GC5
fonte

Il campionamento stratificato mira a dividere un set di dati in modo che ogni suddivisione sia simile rispetto a qualcosa.

In un'impostazione di classificazione, viene spesso scelto per garantire che il treno e i set di test abbiano approssimativamente la stessa percentuale di campioni di ciascuna classe target del set completo.

Di conseguenza, se il set di dati ha una grande quantità di ogni classe, il campionamento stratificato è praticamente uguale al campionamento casuale. Ma se una classe non è molto rappresentata nel set di dati, il che potrebbe essere il caso nel set di dati poiché si prevede di sottocampionare la classe di minoranza, il campionamento stratificato può produrre una distribuzione di classe target diversa nel treno e nei set di test rispetto a quello casuale il campionamento può dare.

Si noti che il campionamento stratificato può anche essere progettato per distribuire equamente alcune funzioni nel prossimo treno e nei set di test. Ad esempio, se ogni campione rappresenta un individuo e una caratteristica è l'età, a volte è utile avere la stessa distribuzione per età sia nel treno che nel set di test.

FYI:

— Franck Dernoncourt
fonte