La normalizzazione dei dati (per avere media zero e deviazione standard unitaria) prima di eseguire una convalida incrociata ripetuta k ha qualche risultato negativo come un overfitting?
Nota: questo è per una situazione in cui #case> #features totali
Sto trasformando alcuni dei miei dati utilizzando una trasformazione del registro, quindi normalizzando tutti i dati come sopra. Sto quindi eseguendo la selezione delle funzionalità. Successivamente applico le funzionalità selezionate e i dati normalizzati a una convalida incrociata ripetuta 10 volte per provare a stimare le prestazioni del classificatore generalizzato e sono preoccupato che l'uso di tutti i dati per normalizzare potrebbe non essere appropriato. Devo normalizzare i dati del test per ogni piega usando i dati di normalizzazione ottenuti dai dati di allenamento per quella piega?
Eventuali opinioni ricevute con gratitudine! Ci scusiamo se questa domanda sembra ovvia.
Modifica: Durante il test di questo (in linea con i suggerimenti di seguito) ho scoperto che la normalizzazione prima del CV non faceva molta differenza dal punto di vista delle prestazioni rispetto alla normalizzazione all'interno del CV.