Attualmente sto utilizzando l'analisi dei componenti principali per selezionare le variabili da utilizzare nella modellazione. Al momento, eseguo le misurazioni A, B e C nei miei esperimenti - Quello che voglio davvero sapere è: posso fare meno misurazioni e interrompere la registrazione di C e o B per risparmiare tempo e fatica?
Trovo che tutte e 3 le variabili si caricino pesantemente sul mio primo componente principale, che rappresenta il 60% della varianza nei miei dati. I punteggi dei componenti mi dicono che se aggiungo queste variabili insieme in un certo rapporto (aA + bB + cC). Posso ottenere un punteggio su PC1 per ogni caso nel mio set di dati e utilizzare questo punteggio come variabile nella modellazione, ma ciò non mi consente di smettere di misurare B e C.
Se quadrato i caricamenti di A e B e C su PC1, trovo che la variabile A rappresenta il 65% della varianza in PC1 e la variabile B rappresenta il 50% della varianza in PC1 e la variabile C anche il 50%, vale a dire alcuni della varianza in PC1 spiegata da ciascuna variabile A, B e C è condivisa con un'altra variabile, ma A viene fuori con un leggero aumento.
È sbagliato pensare che potrei semplicemente scegliere la variabile A o eventualmente (aA + bB, se necessario) da utilizzare nella modellazione perché questa variabile descrive una grande proporzione della varianza in PC1 e questo a sua volta descrive una grande proporzione della varianza in i dati?
Quale approccio hai scelto in passato?
- Singola variabile che carica più pesante su PC1 anche se ci sono altri caricatori pesanti?
- Punteggio dei componenti su PC1 utilizzando tutte le variabili anche se sono tutti caricatori pesanti?