La stratificazione cerca di garantire che ogni piega sia rappresentativa di tutti gli strati dei dati. Generalmente questo viene fatto in modo supervisionato per la classificazione e mira a garantire che ogni classe sia (approssimativamente) equamente rappresentata in ogni piega di prova (che sono ovviamente combinati in modo complementare per formare pieghe di allenamento).
L'intuizione alla base di ciò si riferisce al pregiudizio della maggior parte degli algoritmi di classificazione. Tendono a ponderare equamente ogni istanza, il che significa che le classi sovrarappresentate ottengono troppo peso (ad es. Ottimizzazione della misura F, precisione o una forma di errore complementare). La stratificazione non è così importante per un algoritmo che pesi equamente ogni classe (ad es. Ottimizzazione di Kappa, Informedness o ROC AUC) o secondo una matrice di costo (ad es. Che sta dando un valore a ciascuna classe correttamente ponderato e / o un costo per ogni modo di dovuto all'errata classificazione). Vedi, ad esempio DMW Powers (2014), Cosa non misura la misura F: caratteristiche, difetti, errori e correzioni. http://arxiv.org/pdf/1503.06410
Un problema specifico che è importante anche attraverso algoritmi imparziali o bilanciati è che tendono a non essere in grado di apprendere o testare una classe che non è rappresentata affatto in una piega, e inoltre anche il caso in cui solo uno di una classe è rappresentato in una piega non consente di eseguire la generalizzazione resp. valutata. Tuttavia, anche questa considerazione non è universale e, ad esempio, non si applica molto all'apprendimento di una classe, che cerca di determinare ciò che è normale per una singola classe e identifica efficacemente i valori anomali come una classe diversa, data la convalida incrociata si tratta di determinare le statistiche che non generano un classificatore specifico.
D'altra parte, la stratificazione supervisionata compromette la purezza tecnica della valutazione poiché le etichette dei dati del test non dovrebbero influire sulla formazione, ma nella stratificazione vengono utilizzate nella selezione delle istanze di formazione. La stratificazione senza supervisione è anche possibile sulla base della diffusione di dati simili osservando solo gli attributi dei dati, non la vera classe. Vedi, ad esempio,
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855
NA Diamantidis, D. Karlis, EA Giakoumakis (1997), Stratificazione senza supervisione della convalida incrociata per la stima dell'accuratezza.
La stratificazione può anche essere applicata alla regressione piuttosto che alla classificazione, nel qual caso, come la stratificazione non supervisionata, viene utilizzata la somiglianza anziché l'identità, ma la versione supervisionata utilizza il valore della funzione reale nota.
Ulteriori complicazioni sono le classi rare e la classificazione multilabel, in cui le classificazioni vengono eseguite su più dimensioni (indipendenti). Qui le tuple delle etichette vere in tutte le dimensioni possono essere trattate come classi ai fini della convalida incrociata. Tuttavia, non tutte le combinazioni si verificano necessariamente e alcune combinazioni possono essere rare. Le classi rare e le combinazioni rare sono un problema in quanto una classe / combinazione che si verifica almeno una volta ma meno di K volte (in K-CV) non può essere rappresentata in tutte le pieghe del test. In tali casi, si potrebbe invece considerare una forma di boostrapping stratificato (campionamento con sostituzione per generare una piega di allenamento a grandezza naturale con ripetizioni previste e 36,8% previsto non selezionato per il test, con un'istanza di ciascuna classe inizialmente selezionata senza sostituzione per la piega di prova) .
Un altro approccio alla stratificazione multilabel è quello di provare a stratificare o avviare separatamente ciascuna dimensione di classe senza cercare di garantire una selezione rappresentativa delle combinazioni. Con le etichette L e le istanze N e le istanze Kkl della classe k per l'etichetta l, possiamo scegliere casualmente (senza sostituzione) dal set corrispondente di istanze etichettate Dkl circa istanze N / LKkl. Ciò non garantisce un equilibrio ottimale, ma cerca piuttosto un equilibrio euristico. Ciò può essere migliorato escludendo la selezione di etichette pari o superiori alla quota, a meno che non vi sia alcuna scelta (poiché alcune combinazioni non si verificano o sono rare). I problemi tendono a significare che i dati sono insufficienti o che le dimensioni non sono indipendenti.