L'implementazione della validazione incrociata influenza i suoi risultati?

Come sapete, esistono due tipi popolari di validazione incrociata, K-fold e campionamento casuale (come descritto in Wikipedia ). Tuttavia, so che alcuni ricercatori stanno realizzando e pubblicando articoli in cui qualcosa che è descritto come un CV di K-fold è effettivamente un sottocampionamento casuale, quindi in pratica non si sa mai cosa c'è veramente nell'articolo che stai leggendo.
Di solito ovviamente la differenza è impercettibile, e così va la mia domanda: riesci a pensare ad un esempio quando il risultato di un tipo è significativamente diverso da un altro?

machine-learning cross-validation

Puoi sicuramente ottenere risultati diversi semplicemente perché ti alleni su esempi diversi. Dubito fortemente che esista un algoritmo o un dominio problematico in cui i risultati dei due differirebbero in modo prevedibile.

— bmargulies
fonte

Intendevo risultati significativamente diversi. Penso anche che non ce ne sia nessuno, almeno un esempio nel mondo reale. Tuttavia, penso che aspetterò ancora un po '.

Di solito ovviamente la differenza è impercettibile, e così va la mia domanda: riesci a pensare ad un esempio quando il risultato di un tipo è significativamente diverso da un altro?

Non sono affatto sicuro che la differenza sia impercettibile e che solo nell'esempio ad hoc sarà evidente. I metodi di convalida incrociata e bootstrap (sottocampionamento) dipendono in modo critico dai loro parametri di progettazione e questa comprensione non è ancora completa. In generale, i risultati all'interno della validazione incrociata di k-fold dipendono in modo critico dal numero di pieghe, quindi ci si può aspettare risultati sempre diversi da quelli che si osserverebbero nel sottocampionamento.

Caso in questione: supponiamo di avere un vero modello lineare con un numero fisso di parametri. Se usi la validazione incrociata di k-fold (con una data, fissa k) e lasci che il numero di osservazioni vada all'infinito, la validazione incrociata di k-fold sarà asintoticamente incoerente per la selezione del modello, cioè identificherà un modello errato con probabilità maggiore di 0. Questo risultato sorprendente è dovuto a Jun Shao, "Selezione di modelli lineari per convalida incrociata", Journal of American Statistical Association , 88 , 486-494 (1993), ma è possibile trovare altri articoli in questa vena.

In generale, documenti statistici rispettabili specificano il protocollo di convalida incrociata, proprio perché i risultati non sono invarianti. Nel caso in cui scelgano un numero elevato di pieghe per insiemi di dati di grandi dimensioni, rilevano e cercano di correggere i pregiudizi nella selezione del modello.

— gappy
fonte

No, no, no, si tratta dell'apprendimento automatico e non della selezione dei modelli.

Distinzione interessante. Pensavo che la selezione del modello fosse fondamentale per l'apprendimento automatico, in quasi tutti i significati del termine.

— gappy,

Tutte queste cose funzionano per modelli banali (per lo più lineari) quando hai pochi parametri e vuoi solo adattarli ai dati per dire qualcosa al riguardo, come se avessi y e xe vuoi verificare se y = x ^ 2 o y = x. Qui parlo della stima dell'errore di modelli come SVM o RF che possono avere migliaia di parametri e non sono ancora adatti a causa di complesse euristiche.

Questi risultati sono validi per la regressione di modelli lineari generali con numero arbitrario di variabili indipendenti. Le variabili possono essere studenti arbitrari. Il presupposto cruciale è che quando il numero di osservazioni va all'infinito, il numero di discenti che descrivono il vero modello rimane limitato. Tutto questo funziona per la regressione, quindi per un compito di classificazione come il tuo non sono sicuro che aiuti.

— gappy,

Non è così; GLM non è apprendimento automatico. I veri metodi di apprendimento automatico sono abbastanza saggi da mantenere il loro livello di complessità indipendente dal numero crescente di oggetti (se ovviamente è sufficiente); anche per i modelli lineari tutta questa teoria funziona piuttosto male poiché la convergenza è scarsa.