Comprensione della convalida incrociata stratificata

55

Qual è la differenza tra stratificato convalida incrociata e convalida incrociata ?

Wikipedia dice:

Nella convalida incrociata della piega k stratificata , le pieghe sono selezionate in modo che il valore di risposta medio sia approssimativamente uguale in tutte le pieghe. Nel caso di una classificazione dicotomica, ciò significa che ogni piega contiene all'incirca le stesse proporzioni dei due tipi di etichette di classe.

Ma sono ancora confuso.

Cosa mean response valuesignifica in questo contesto?
Perché il numero 1 è importante?
Come si ottiene in pratica il numero 1?

cross-validation stratification

— Amelio Vazquez-Reina
fonte

43

L'articolo di validazione incrociata nell'Enciclopedia dei sistemi di database dice:

La stratificazione è il processo di riorganizzazione dei dati per garantire che ogni piega sia un buon rappresentante del tutto. Ad esempio in un problema di classificazione binaria in cui ogni classe comprende il 50% dei dati, è meglio disporre i dati in modo tale che in ogni piega, ogni classe comprende circa la metà delle istanze.

Sull'importanza della stratificazione, Kohavi (uno studio di convalida incrociata e bootstrap per la stima dell'accuratezza e la selezione del modello) conclude che:

la stratificazione è generalmente uno schema migliore, sia in termini di bias che di varianza, rispetto alla regolare convalida incrociata.

— Baumann
fonte

5

Puoi descrivere, intuitivamente, perché è meglio quel CV regolare?

— MohamedEzz,

Forse includi un paragrafo che ci sono diversi gradi di stratificazione a cui puoi mirare e che interferiscono a diversi gradi con la casualità delle pieghe. A volte, tutto ciò che serve è assicurarsi che ci sia almeno un record di ogni classe in ogni piega. Quindi potresti semplicemente generare le pieghe in modo casuale, controllare se tale condizione è soddisfatta e solo nel caso improbabile che non sia soddisfatta rimpasto delle pieghe.

— David Ernst,

37

La stratificazione cerca di garantire che ogni piega sia rappresentativa di tutti gli strati dei dati. Generalmente questo viene fatto in modo supervisionato per la classificazione e mira a garantire che ogni classe sia (approssimativamente) equamente rappresentata in ogni piega di prova (che sono ovviamente combinati in modo complementare per formare pieghe di allenamento).

L'intuizione alla base di ciò si riferisce al pregiudizio della maggior parte degli algoritmi di classificazione. Tendono a ponderare equamente ogni istanza, il che significa che le classi sovrarappresentate ottengono troppo peso (ad es. Ottimizzazione della misura F, precisione o una forma di errore complementare). La stratificazione non è così importante per un algoritmo che pesi equamente ogni classe (ad es. Ottimizzazione di Kappa, Informedness o ROC AUC) o secondo una matrice di costo (ad es. Che sta dando un valore a ciascuna classe correttamente ponderato e / o un costo per ogni modo di dovuto all'errata classificazione). Vedi, ad esempio DMW Powers (2014), Cosa non misura la misura F: caratteristiche, difetti, errori e correzioni. http://arxiv.org/pdf/1503.06410

Un problema specifico che è importante anche attraverso algoritmi imparziali o bilanciati è che tendono a non essere in grado di apprendere o testare una classe che non è rappresentata affatto in una piega, e inoltre anche il caso in cui solo uno di una classe è rappresentato in una piega non consente di eseguire la generalizzazione resp. valutata. Tuttavia, anche questa considerazione non è universale e, ad esempio, non si applica molto all'apprendimento di una classe, che cerca di determinare ciò che è normale per una singola classe e identifica efficacemente i valori anomali come una classe diversa, data la convalida incrociata si tratta di determinare le statistiche che non generano un classificatore specifico.

D'altra parte, la stratificazione supervisionata compromette la purezza tecnica della valutazione poiché le etichette dei dati del test non dovrebbero influire sulla formazione, ma nella stratificazione vengono utilizzate nella selezione delle istanze di formazione. La stratificazione senza supervisione è anche possibile sulla base della diffusione di dati simili osservando solo gli attributi dei dati, non la vera classe. Vedi, ad esempio, http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 NA Diamantidis, D. Karlis, EA Giakoumakis (1997), Stratificazione senza supervisione della convalida incrociata per la stima dell'accuratezza.

La stratificazione può anche essere applicata alla regressione piuttosto che alla classificazione, nel qual caso, come la stratificazione non supervisionata, viene utilizzata la somiglianza anziché l'identità, ma la versione supervisionata utilizza il valore della funzione reale nota.

Ulteriori complicazioni sono le classi rare e la classificazione multilabel, in cui le classificazioni vengono eseguite su più dimensioni (indipendenti). Qui le tuple delle etichette vere in tutte le dimensioni possono essere trattate come classi ai fini della convalida incrociata. Tuttavia, non tutte le combinazioni si verificano necessariamente e alcune combinazioni possono essere rare. Le classi rare e le combinazioni rare sono un problema in quanto una classe / combinazione che si verifica almeno una volta ma meno di K volte (in K-CV) non può essere rappresentata in tutte le pieghe del test. In tali casi, si potrebbe invece considerare una forma di boostrapping stratificato (campionamento con sostituzione per generare una piega di allenamento a grandezza naturale con ripetizioni previste e 36,8% previsto non selezionato per il test, con un'istanza di ciascuna classe inizialmente selezionata senza sostituzione per la piega di prova) .

Un altro approccio alla stratificazione multilabel è quello di provare a stratificare o avviare separatamente ciascuna dimensione di classe senza cercare di garantire una selezione rappresentativa delle combinazioni. Con le etichette L e le istanze N e le istanze Kkl della classe k per l'etichetta l, possiamo scegliere casualmente (senza sostituzione) dal set corrispondente di istanze etichettate Dkl circa istanze N / LKkl. Ciò non garantisce un equilibrio ottimale, ma cerca piuttosto un equilibrio euristico. Ciò può essere migliorato escludendo la selezione di etichette pari o superiori alla quota, a meno che non vi sia alcuna scelta (poiché alcune combinazioni non si verificano o sono rare). I problemi tendono a significare che i dati sono insufficienti o che le dimensioni non sono indipendenti.

— Poteri di David MW
fonte

5

Il valore medio di risposta è approssimativamente uguale in tutte le pieghe è un altro modo per dire che la proporzione di ogni classe in tutte le pieghe è approssimativamente uguale.

Ad esempio, abbiamo un set di dati con 80 record di classe 0 e 20 record di classe 1. Potremmo ottenere un valore di risposta medio di (80 * 0 + 20 * 1) / 100 = 0,2 e vogliamo che 0,2 sia il valore di risposta medio di tutte le pieghe. Questo è anche un modo rapido in EDA per misurare se il set di dati fornito è sbilanciato invece di contare.

— Lucy Lu
fonte