Devo ri-mescolare i miei dati?


9

Abbiamo un set di campioni biologici che era piuttosto costoso da ottenere. Abbiamo sottoposto questi esempi a una serie di test per generare dati utilizzati per la creazione di un modello predittivo. A tale scopo abbiamo diviso i campioni in set di addestramento (70%) e test (30%). Abbiamo creato con successo un modello e applicato sul set di test per scoprire che le prestazioni erano "meno che ottimali". Gli sperimentatori ora vogliono migliorare i test biologici al fine di creare un modello migliore. A condizione che non siamo in grado di ottenere nuovi campioni, ci suggeriresti di ri-mescolare i campioni per creare nuovi set di addestramento e convalida o attenerci alla divisione originale. (Non abbiamo alcuna indicazione che la divisione fosse problematica).


1
Come hai diviso i dati? Casualmente, a mano, o qualche altro metodo? Sebbene, in verità, la parte relativa alla "creazione riuscita di un modello" sia una parte MOLTO più ampia del problema. Prima di fare cose costose, dovresti vedere se stai usando il tipo appropriato di modello, se hai adattato troppo i tuoi dati di allenamento e se hai i dati appropriati per ciò che stai cercando di prevedere.
Wayne,

A proposito, ho dimenticato di attivare la modalità cinismo prima del "modello creato con successo"
David Dong

Risposte:


12

Dato che usi già un campione di controllo, direi che dovresti tenerlo e costruire i tuoi nuovi modelli sullo stesso campione di addestramento in modo che tutti i modelli considerino le stesse relazioni tra le funzionalità. Inoltre, se si esegue la selezione delle funzioni, i campioni devono essere esclusi prima di una qualsiasi di queste fasi di filtraggio; vale a dire, la selezione della funzione deve essere inclusa nel ciclo di convalida incrociata.

Da notare che ci sono metodi più potenti di una divisione 0,67 / 0,33 per la selezione del modello, vale a dire la convalida incrociata k-fold o il congedo unico. Vedi ad esempio The Elements of Statistical Learning (§7.10, pagg. 241-248), www.modelselection.org o Un sondaggio sulle procedure di validazione incrociata per la selezione dei modelli da parte di Arlot e Celisse (è richiesto un background matematico più avanzato).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.