Recentemente ho letto molto su questo sito (@Aniko, @Dikran Marsupial, @Erik) e altrove sul problema del sovradimensionamento che si verifica con convalida incrociata - (Smialowski et al 2010 Bioinformatica, Hastie, Elementi di apprendimento statistico). Il suggerimento è che qualsiasi selezione di funzionalità supervisionata (utilizzando la correlazione con le etichette di classe) eseguita al di fuori della stima delle prestazioni del modello utilizzando la convalida incrociata (o altri metodi di stima del modello come il bootstrap) può comportare un overfitting.
Questo non mi sembra intuitivo - sicuramente se selezioni un set di funzionalità e poi valuti il tuo modello usando solo le funzionalità selezionate usando la validazione incrociata, allora stai ottenendo una stima imparziale delle prestazioni del modello generalizzato su quelle caratteristiche (questo presuppone che il campione in studio sia rappresentativo della popolazione)?
Naturalmente, con questa procedura non è possibile rivendicare un set di funzionalità ottimale, ma è possibile riportare valide le prestazioni del set di funzionalità selezionato su dati non visti?
Accetto che la selezione delle funzionalità in base all'intero set di dati possa provocare una perdita di dati tra i set di test e quelli del treno. Ma se il set di funzionalità è statico dopo la selezione iniziale e non viene eseguita alcuna altra ottimizzazione, sicuramente è valido riportare le metriche delle prestazioni convalidate in modo incrociato?
Nel mio caso ho 56 funzioni e 259 casi e quindi #case> #features. Le funzionalità sono derivate dai dati del sensore.
Mi scuso se la mia domanda sembra derivata ma questo sembra un punto importante da chiarire.
Modifica: sull'implementazione della selezione delle funzionalità nell'ambito della convalida incrociata sul set di dati sopra descritto (grazie alle risposte seguenti), posso confermare che la selezione delle funzionalità prima della convalida incrociata in questo set di dati ha introdotto un significativobias. Questo bias / overfitting era maggiore quando lo faceva per una formulazione di 3 classi, rispetto alla formulazione di 2 classi. Penso che il fatto di aver usato la regressione graduale per la selezione delle funzioni abbia aumentato questo eccesso; a fini di confronto, su un set di dati diverso ma correlato, ho confrontato una routine sequenziale di selezione delle caratteristiche in avanti eseguita prima della convalida incrociata rispetto ai risultati che avevo precedentemente ottenuto con la selezione delle caratteristiche in CV. I risultati tra i due metodi non differivano notevolmente. Ciò può significare che la regressione graduale è più soggetta a sovralimentazione rispetto a FS sequenziale o può essere una stranezza di questo set di dati.