In The Elements of Statistical Learning , ho trovato la seguente dichiarazione:
Esiste una qualifica: le fasi iniziali di screening senza supervisione possono essere eseguite prima che i campioni vengano esclusi. Ad esempio, potremmo selezionare i 1000 predittori con la varianza più elevata tra tutti i 50 campioni, prima di iniziare la convalida incrociata. Poiché questo filtro non coinvolge le etichette di classe, non offre un vantaggio ingiusto ai predittori.
Questo è effettivamente valido? Voglio dire, filtrando preventivamente gli attributi, non stiamo imitando i dati di addestramento / nuovo ambiente di dati - quindi è importante che il filtro che stiamo eseguendo non sia supervisionato? Non è meglio eseguire effettivamente tutte le fasi di preelaborazione all'interno del processo di convalida incrociata? In caso contrario, significa che è possibile eseguire preventivamente tutte le preelaborazioni senza supervisione, inclusa la normalizzazione delle funzioni / PCA, ecc. Ma eseguendo queste operazioni sull'intero set di training, stiamo effettivamente perdendo alcuni dati sul set di training. Posso essere d'accordo sul fatto che con un set di dati relativamente stabile, queste differenze molto probabilmente dovrebbero essere minuscole - ma ciò non significa che non esistano, giusto? Qual è il modo corretto di pensare a questo?