Come utilizzare l'analisi dei componenti principali per selezionare le variabili per la regressione?

12

Attualmente sto utilizzando l'analisi dei componenti principali per selezionare le variabili da utilizzare nella modellazione. Al momento, eseguo le misurazioni A, B e C nei miei esperimenti - Quello che voglio davvero sapere è: posso fare meno misurazioni e interrompere la registrazione di C e o B per risparmiare tempo e fatica?

Trovo che tutte e 3 le variabili si caricino pesantemente sul mio primo componente principale, che rappresenta il 60% della varianza nei miei dati. I punteggi dei componenti mi dicono che se aggiungo queste variabili insieme in un certo rapporto (aA + bB + cC). Posso ottenere un punteggio su PC1 per ogni caso nel mio set di dati e utilizzare questo punteggio come variabile nella modellazione, ma ciò non mi consente di smettere di misurare B e C.

Se quadrato i caricamenti di A e B e C su PC1, trovo che la variabile A rappresenta il 65% della varianza in PC1 e la variabile B rappresenta il 50% della varianza in PC1 e la variabile C anche il 50%, vale a dire alcuni della varianza in PC1 spiegata da ciascuna variabile A, B e C è condivisa con un'altra variabile, ma A viene fuori con un leggero aumento.

È sbagliato pensare che potrei semplicemente scegliere la variabile A o eventualmente (aA + bB, se necessario) da utilizzare nella modellazione perché questa variabile descrive una grande proporzione della varianza in PC1 e questo a sua volta descrive una grande proporzione della varianza in i dati?

Quale approccio hai scelto in passato?

Singola variabile che carica più pesante su PC1 anche se ci sono altri caricatori pesanti?
Punteggio dei componenti su PC1 utilizzando tutte le variabili anche se sono tutti caricatori pesanti?

regression pca model-selection

— N26
fonte

14

Non hai specificato su quale "modellazione" prevedi, ma sembra che ti stia chiedendo come selezionare variabili indipendenti tra , e allo scopo di (diciamo) regredire su di esse una quarta variabile dipendente $A$ $B$ $C$ $W$

Per vedere che questo approccio può andare storto, considera tre variabili indipendenti distribuite normalmente , e con varianza unitaria. Per il vero modello sottostante , scegli una piccola costante , una costante davvero minuscola e lascia che la (variabile dipendente) (più un po 'di errore indipendente da , e ). $X$ $Y$ $Z$ $\beta \ll 1$ $\epsilon \ll \beta$ $W = Z$ $X$ $Y$ $Z$

$A = X + \epsilon Y$ $B = X - \epsilon Y$ $C = \beta Z$ $W$ $C$ $Z$ $W$ $A$ $B$ $\beta$ $\{A, B, C\}$ $X$ $2 \gg \beta$ $A$ $B$ $C$ $X$ $Y$ $C$ $A$ $B$ $W$ $A$ $B$

Questo esempio mostra che per la regressione si desidera prestare attenzione a come le variabili indipendenti sono correlate a quella dipendente; non puoi scappare semplicemente analizzando le relazioni tra le variabili indipendenti.

— whuber
fonte

1

A = X + ϵ Y

$A = X + \epsilon Y$

Z + ϵ Y

$Z + \epsilon Y$

@shabby Sì, grazie. (Ho dovuto cambiare tutti i nomi delle variabili in una bozza per abbinare i nomi dell'OP e ho incasinato questo.)

— whuber

4

Se hai solo 3 IV, perché vuoi ridurli?

Cioè, il tuo campione è molto piccolo (in modo che 3 IV rischino di adattarsi eccessivamente)? In questo caso, considera i minimi quadrati parziali

Oppure le misurazioni sono molto costose (quindi, in futuro, vorresti misurare solo un IV)? In questo caso, prenderei in considerazione l'esame delle diverse regressioni con ciascun IV separatamente e insieme.

O qualcuno nel tuo passato ha enfatizzato troppo il valore della parsimonia? In questo caso, perché non includere tutti e 3 i IV?

— Peter Flom - Ripristina Monica
fonte