Ho un set di dati per il quale ho più set di etichette binarie. Per ogni set di etichette, alleno un classificatore, valutandolo per convalida incrociata. Voglio ridurre la dimensionalità utilizzando l'analisi dei componenti principali (PCA). La mia domanda è:
È possibile eseguire il PCA una volta per l'intero set di dati e quindi utilizzare il nuovo set di dati di dimensionalità inferiore per la convalida incrociata come descritto sopra? O devo fare un PCA separato per ogni set di addestramento (il che significherebbe fare un PCA separato per ogni classificatore e per ogni piega di validazione incrociata)?
Da un lato, il PCA non fa alcun uso delle etichette. D'altra parte, utilizza i dati del test per eseguire la trasformazione, quindi temo che potrebbe influenzare i risultati.
Devo dire che oltre a salvarmi un po 'di lavoro, fare il PCA una volta sull'intero set di dati mi consentirebbe di visualizzare il set di dati per tutti i set di etichette contemporaneamente. Se ho un PCA diverso per ciascun set di etichette, dovrei visualizzare ciascun set di etichette separatamente.
caret
pacchetto: PCA e k-fold Cross Validation in Caret .