L'idea di base quando si utilizza PCA come strumento per la selezione delle funzionalità è selezionare le variabili in base alla grandezza (dal più grande al più piccolo in valori assoluti) dei loro coefficienti ( carichi ). Si può ricordare che PCA cerca di sostituire le variabili (più o meno correlate) con combinazioni lineari non correlate (proiezioni) delle variabili originali. Ignoriamo come scegliere un ottimale per il problema in questione. Quei componenti principali sono classificati per importanza in base alla loro varianza spiegata e ogni variabile contribuisce con diverso grado a ciascun componente. L'uso dei criteri di varianza più grandi sarebbe simile all'estrazione delle caratteristichek < p k k j < p jpk<pkk , in cui il componente principale viene utilizzato come nuove funzionalità, anziché le variabili originali. Tuttavia, possiamo decidere di mantenere solo il primo componente e selezionare le variabili che hanno il coefficiente assoluto più alto; il numero potrebbe essere basato sulla proporzione del numero di variabili (ad esempio, mantenere solo il 10% superiore delle variabili ) o su un valore soglia fisso (ad esempio, considerando una soglia sui coefficienti normalizzati). Questo approccio ha una certa somiglianza con l' operatore Lazo nella regressione penalizzata (o regressione PLS ). Tuttavia, né il valore di , né il numero di componenti da conservare sono scelte ovvie.j<pjjpj
Il problema con l'utilizzo di PCA è che (1) misurazioni da tutte le variabili originali vengono utilizzate nella proiezione nello spazio dimensionale inferiore, (2) vengono considerate solo le relazioni lineari e (3) metodi basati su PCA o SVD come metodi di screening univariato (t-test, correlazione, ecc.), non tengono conto della potenziale natura multivariata della struttura dei dati (ad esempio, interazione di ordine superiore tra variabili).
Circa il punto 1, sono stati proposti alcuni metodi di screening più elaborati, ad esempio l' analisi delle caratteristiche principali o il metodo graduale, come quello utilizzato per la " rasatura genica " negli studi sull'espressione genica. Inoltre, è possibile utilizzare PCA sparsi per eseguire la riduzione delle dimensioni e la selezione delle variabili in base ai carichi variabili risultanti. A proposito del punto 2, è possibile usare il PCA del kernel (usando il trucco del kernel ) se è necessario incorporare relazioni non lineari in uno spazio dimensionale inferiore. Gli alberi decisionali , o meglio l' algoritmo di foresta casuale , sono probabilmente in grado di risolvere meglio il punto 3. Quest'ultimo consente di derivare misure basate su Gini o sulla permutazione di importanza variabile .
Un ultimo punto: se si intende eseguire la selezione delle caratteristiche prima di applicare un modello di classificazione o regressione, accertarsi di convalidare in modo incrociato l'intero processo (vedere §7.10.2 degli Elementi di apprendimento statistico o Ambroise e McLachlan, 2002 ).
Dato che sembri essere interessato alla soluzione R, consiglierei di dare un'occhiata al pacchetto del cursore che include molte funzioni utili per la preelaborazione dei dati e la selezione delle variabili in un contesto di classificazione o regressione.