La selezione delle funzioni deve essere eseguita solo sui dati di allenamento (o su tutti i dati)? Ho esaminato alcune discussioni e articoli come Guyon (2003) e Singhi e Liu (2006) , ma non sono ancora sicuro della risposta giusta.
La configurazione del mio esperimento è la seguente:
- Set di dati: 50 controlli sani e 50 pazienti con malattia (circa 200 caratteristiche che possono essere rilevanti per la previsione della malattia).
- Compito è diagnosticare la malattia in base alle funzionalità disponibili.
Quello che faccio è
- Prendi l'intero set di dati ed esegui la selezione delle funzioni (FS). Conservo solo le funzionalità selezionate per ulteriori elaborazioni
- Dividi per testare e addestrare, classificare i treni utilizzando i dati del treno e le funzionalità selezionate. Quindi, applica il classificatore per testare i dati (usando nuovamente solo le funzionalità selezionate). Viene utilizzata la convalida di esclusione.
- ottenere l'accuratezza della classificazione
- Media: ripetere 1) -3) N volte. (100).
Concordo sul fatto che l'esecuzione di FS su tutto il set di dati può comportare alcuni pregiudizi, ma la mia opinione è che durante la media sia "mediata" (fase 4). È corretto? (La varianza della precisione è )
1 Guyon, I. (2003) "An Introduction to Variable and Feature Selection", The Journal of Machine Learning Research, vol. 3, pagg. 1157-1182
2 Singhi, SK e Liu, H. (2006) "Distorsione di selezione del sottoinsieme di funzioni per l'apprendimento delle classificazioni", procedimento ICML '06 Atti della 23a conferenza internazionale sull'apprendimento automatico, pagg. 849-856