Perché i ricercatori usano la validazione incrociata 10 volte invece di testare su un set di validazione?


23

Ho letto molti articoli di ricerca sulla classificazione dei sentimenti e argomenti correlati.

La maggior parte di essi utilizza una validazione incrociata di 10 volte per addestrare e testare i classificatori. Ciò significa che non viene eseguito alcun test / convalida separato. Perché?

Quali sono i vantaggi / gli svantaggi di questo approccio, in particolare per chi fa ricerca?


3
Sei sicuro che non siano stati effettuati test separati?
Douglas Zare,

Risposte:


17

Questo non è un problema se il CV è nidificato , vale a dire tutte le ottimizzazioni, le selezioni di funzioni e le selezioni di modelli, che essi stessi utilizzino o meno CV, sono racchiuse in un unico CV di grandi dimensioni.

In che modo si confronta con un set di convalida aggiuntivo? Mentre il set di validazione è di solito solo una parte più o meno selezionata casualmente di tutti i dati, è semplicemente l'equivalente di una iterazione di CV. A tal fine, è in realtà un metodo peggiore perché può essere facilmente influenzato da (si spera) per fortuna / sfortunatamente selezionato o set di validazione selezionato ciliegia.

L'unica eccezione a ciò sono le serie temporali e altri dati in cui l'ordine degli oggetti conta; ma richiedono un trattamento speciale in entrambi i casi.


16

Il motivo principale è che lo stimatore della convalida incrociata k-fold presenta una varianza inferiore rispetto a un singolo stimatore del set di controllo, che può essere molto importante se la quantità di dati disponibili è limitata. Se disponi di un unico set di controllo, in cui il 90% dei dati viene utilizzato per l'allenamento e il 10% utilizzato per i test, il set di test è molto piccolo, quindi ci saranno molte variazioni nella stima del rendimento per diversi campioni di dati, o per diverse partizioni dei dati per formare set di addestramento e test. La convalida k-fold riduce questa varianza calcolando la media su k diverse partizioni, quindi la stima delle prestazioni è meno sensibile al partizionamento dei dati. Puoi andare ancora oltre ripetendo la convalida incrociata di k-fold, in cui la convalida incrociata viene eseguita utilizzando diversi partizionamenti dei dati per formare k sottoinsiemi,

Si noti tuttavia che tutte le fasi della procedura di adattamento del modello (selezione del modello, selezione delle caratteristiche, ecc.) Devono essere eseguite in modo indipendente in ciascuna piega della procedura di convalida incrociata, altrimenti la stima delle prestazioni risultante sarà distorta in modo ottimistico.


9

[MODIFICATO alla luce del commento]

Penso che ci sia un problema se si utilizzano i risultati CV per selezionare tra più modelli.

Il CV ti consente di utilizzare l'intero set di dati per formare e testare un modello / metodo, pur potendo avere un'idea ragionevole di quanto bene si generalizzerà. Ma se stai confrontando più modelli, il mio istinto è che il confronto tra modelli utilizza il livello extra di isolamento treno-test che ti dà CV, quindi il risultato finale non sarà una stima ragionevole dell'accuratezza del modello scelto.

Quindi immagino che se crei diversi modelli e ne scegli uno in base al suo CV, sarai troppo ottimista su ciò che hai trovato. Un altro set di validazione sarebbe necessario per vedere quanto bene il vincitore generalizza.


Grazie. Giusto. Ma la mia domanda riguardava soprattutto perché la mancanza di una convalida finale per la ricerca di documenti? C'è una ragione adeguata? Si tratta di meno dati o perché il CV fa un buon lavoro e non è necessaria una convalida separata?
user18075,

5
L'approccio della suddivisione dei dati è altamente inefficiente. Fino a quando sia la formazione che i set di test non sono enormi, l'errore quadratico medio per una stima delle probabili prestazioni future per un modello predittivo è più piccolo con il bootstrap o con 100 ripetizioni di convalida incrociata 10 volte, supponendo che le procedure di ricampionamento abbiano accesso a tutte le fasi della modellazione quello coinvoltoY. Utilizzare la suddivisione dei dati quando è necessario convalidare anche il processo di misurazione, lo strumento di rilevamento o altre procedure correlate al significato dei dati. Un buon uso della suddivisione dei dati è quando la strumentazione varia in base al Paese.
Frank Harrell,

7
  • Nella mia esperienza, il motivo principale è di solito che non hai abbastanza campioni.
    Nel mio campo (classificazione dei campioni biologici / medici), a volte un set di test viene tenuto separato, ma spesso comprende solo pochi casi. In tal caso, gli intervalli di confidenza sono generalmente troppo ampi per essere utili.

  • Un altro vantaggio della convalida incrociata ripetuta / ripetuta o della convalida fuori dal bootstrap è la creazione di un gruppo di modelli "surrogati". Si presume che siano uguali. In caso contrario, le modalità sono instabili. Puoi effettivamente misurare questa instabilità (rispetto allo scambio di alcuni casi di addestramento) confrontando i modelli surrogati stessi o le previsioni fatte da diversi modelli surrogati per lo stesso caso.

  • Questo articolo di Esbensen & Geladi offre una bella discussione di alcuni limiti della validazione incrociata.
    Puoi prenderti cura della maggior parte di essi, ma un punto importante che non può essere affrontato dal ricampionamento della convalida è la deriva, che è correlata al punto di mbq:

    L'unica eccezione a ciò sono le serie temporali e altri dati in cui l'ordine degli oggetti è importante

    Deriva significa che, ad esempio, la risposta di uno strumento / la vera calibrazione cambia lentamente nel tempo. Quindi l'errore di generalizzazione per casi sconosciuti potrebbe non essere lo stesso di casi futuri sconosciuti . Si arriva a istruzioni come "ripetere la calibrazione giornaliera / settimanale / ..." se si riscontra una deriva durante la convalida, ma questo richiede set di test acquisiti sistematicamente dopo i dati di allenamento.
    (Potresti fare divisioni "speciali" che tengano conto del tempo di acquisizione, se l'esperimento è pianificato in modo accattivante, ma di solito questo non coprirà tutto il tempo che vorresti testare per il rilevamento della deriva)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.