Devo ridurre il numero di variabili per condurre un'analisi del cluster. Le mie variabili sono fortemente correlate, quindi ho pensato di fare un PCA di analisi fattoriale (analisi dei componenti principali). Tuttavia, se uso i punteggi risultanti, i miei cluster non sono del tutto corretti (rispetto alle precedenti classificazioni in letteratura).
Domanda:
Posso utilizzare la matrice di rotazione per selezionare le variabili con i maggiori carichi per ciascun componente / fattore e utilizzare solo queste variabili per il mio clustering?
Eventuali riferimenti bibliografici sarebbero anche utili.
Aggiornare:
Alcuni chiarimenti:
Il mio obiettivo: devo eseguire un'analisi dei cluster con algoritmo in due passaggi da SPSS, ma le mie variabili non sono indipendenti, quindi ho pensato di scartarne alcune.
Il mio set di dati: sto lavorando su 15 parametri scalari (le mie variabili) di 100.000 casi. Alcune variabili sono fortemente correlate ( Pearson)
Il mio dubbio: poiché ho bisogno solo di variabili indipendenti, ho pensato di eseguire un'analisi dei componenti principali (scusate: ho parlato erroneamente dell'analisi fattoriale nella mia domanda originale, il mio errore) e selezionare solo le variabili con i maggiori carichi per ciascun componente. So che il processo PCA presenta alcuni passaggi arbitrari, ma ho scoperto che questa selezione è in realtà simile al " metodo B4 " proposto da IT Jolliffe (1972 e 2002) per selezionare le variabili e suggerito anche da JR King & DA Jackson nel 1999 .
Quindi stavo pensando di selezionare in questo modo alcuni sottogruppi di variabili indipendenti. Userò quindi i gruppi per eseguire diverse analisi dei cluster e confronterò i risultati.