Posso usare PCA per selezionare le variabili per l'analisi dei cluster?


12

Devo ridurre il numero di variabili per condurre un'analisi del cluster. Le mie variabili sono fortemente correlate, quindi ho pensato di fare un PCA di analisi fattoriale (analisi dei componenti principali). Tuttavia, se uso i punteggi risultanti, i miei cluster non sono del tutto corretti (rispetto alle precedenti classificazioni in letteratura).

Domanda:

Posso utilizzare la matrice di rotazione per selezionare le variabili con i maggiori carichi per ciascun componente / fattore e utilizzare solo queste variabili per il mio clustering?

Eventuali riferimenti bibliografici sarebbero anche utili.

Aggiornare:

Alcuni chiarimenti:

  • Il mio obiettivo: devo eseguire un'analisi dei cluster con algoritmo in due passaggi da SPSS, ma le mie variabili non sono indipendenti, quindi ho pensato di scartarne alcune.

  • Il mio set di dati: sto lavorando su 15 parametri scalari (le mie variabili) di 100.000 casi. Alcune variabili sono fortemente correlate ( Pearson)>0.9

  • Il mio dubbio: poiché ho bisogno solo di variabili indipendenti, ho pensato di eseguire un'analisi dei componenti principali (scusate: ho parlato erroneamente dell'analisi fattoriale nella mia domanda originale, il mio errore) e selezionare solo le variabili con i maggiori carichi per ciascun componente. So che il processo PCA presenta alcuni passaggi arbitrari, ma ho scoperto che questa selezione è in realtà simile al " metodo B4 " proposto da IT Jolliffe (1972 e 2002) per selezionare le variabili e suggerito anche da JR King & DA Jackson nel 1999 .

    Quindi stavo pensando di selezionare in questo modo alcuni sottogruppi di variabili indipendenti. Userò quindi i gruppi per eseguire diverse analisi dei cluster e confronterò i risultati.


1
Se conosci la risposta corretta, perché l'analisi a tutti?
StasK

1
In un'altra nota, perché pensi di dover ridurre il numero di variabili per l'analisi dei cluster? Non credo che nessuno dei moderni strumenti di analisi dei cluster abbia limiti sul numero di variabili di input. Naturalmente se hai un test con 120 articoli, le cose si complicheranno.
StasK


Mi sembra che l'aggiunta dell'aspetto dell'analisi del cluster di questa Q lo renda abbastanza distinto da rimanere aperto.
gung - Ripristina Monica

Sembri applicare criteri più severi ai duplicati di me, @gung; forse hai ragione (e anche il voto non va bene su questo). Tuttavia, in questo caso particolare l'OP stava chiedendo la più semplice selezione di funzionalità basata su PCA (come chiarito nel suo aggiornamento) che è trattata nel thread che ho suggerito. D'altra parte, StasK ha pubblicato qui una risposta interessante che riguarda specificamente il clustering ...
ameba dice Reinstate Monica il

Risposte:


7

Come sempre, farò un passo indietro e chiederò esattamente cosa stai cercando di fare. L'analisi fattoriale è progettata per trovare variabili latenti. Se vuoi trovare variabili latenti e raggrupparle, allora quello che stai facendo è corretto. Ma dici di voler semplicemente ridurre il numero di variabili, il che suggerisce invece l'analisi dei componenti principali.

Tuttavia, con uno di questi, è necessario interpretare l'analisi dei cluster su nuove variabili e quelle nuove variabili sono semplicemente somme ponderate di quelle vecchie.

Quante variabili hai? Quanto sono correlati? Se ce ne sono troppi, e sono fortemente correlati, è possibile cercare tutte le correlazioni su un numero molto elevato ed eliminare casualmente una variabile da ciascuna coppia. Ciò riduce il numero di variabili e lascia le variabili così come sono.

Vorrei anche fare eco a @StasK sulla necessità di farlo, e @ rolando2 sull'utilità di trovare qualcosa di diverso da ciò che è stato trovato prima. Come diceva il mio professore preferito alla scuola di specializzazione "Se non sei sorpreso, non hai imparato nulla".


1
prima di tutto, mi dispiace: in realtà mi riferisco ad un'analisi delle componenti principali, non all'analisi dei fattori, il mio errore. Inoltre, stavo cercando un modo per non selezionare arbitrariamente la variabile correlata alle streghe che terrò. Aggiungo ulteriori informazioni sul problema sopra .. grazie ancora
en.

5

Un modo per eseguire contemporaneamente l'analisi dei fattori e l'analisi dei cluster è attraverso modelli di miscele di equazioni strutturali. In questi modelli, si postula che ci sono modelli separati (in questo caso, modelli di fattori) per ciascun cluster. Dovresti avere l'analisi media insieme all'analisi della covarianza e occuparti dell'identificazione in misura maggiore rispetto all'analisi del fattore vaniglia. L'idea affrontata dal lato SEM appare in Jedidi et. al. (1997) , e dal lato del clustering, nel clustering basato sul modello di Adrian Raftery . Questo tipo di analisi è apparentemente disponibile in Mplus .


1
grazie per gli input, specialmente per i riferimenti, ma ho erroneamente fatto riferimento all'analisi fattoriale: stavo davvero pensando alle componenti principali al fine di ridurre le mie variabili impostate in un sottogruppo di variabili indipendenti. il mio errore
en.

2

Non penso che sia una questione di "correttezza" pura e semplice, ma piuttosto se realizzerà ciò che stai cercando di fare. L'approccio che descriverete finirà per raggrupparsi secondo determinati fattori, in modo attenuato, poiché userete solo un indicatore per rappresentare ciascun fattore. Ciascuno di questi indicatori sembra essere un sostituto imperfetto del fattore latente sottostante. Questo è un problema.

Un altro problema è che l'analisi dei fattori stessa, come ho raccontato io (e molte altre persone) , è piena di decisioni soggettive che coinvolgono come gestire i dati mancanti, il numero di fattori da estrarre, come estrarre, se e come ruotare, e così via su. Quindi potrebbe essere tutt'altro che chiaro che i fattori che potresti aver estratto in modo rapido e predefinito dal software (come penso tu abbia implicato) sono i "migliori" in ogni senso.

Complessivamente, quindi, potresti aver utilizzato versioni annacquate di fattori che sono essi stessi discutibili come i modi migliori per caratterizzare i temi alla base dei tuoi dati. Non mi aspetto che i cluster risultanti da tali variabili di input siano i più informativi o i più distinti.

In un'altra nota, sembra interessante che tu consideri un problema avere appartenenze / profili di cluster che non si allineano con ciò che altri ricercatori hanno trovato. A volte i risultati sconcertanti possono essere molto salutari!


grazie mille, ho aggiunto ulteriori informazioni sopra per specificare i miei dubbi
en.

0

Quello che potrebbe accadere nel tuo caso è che i fattori estratti nell'analisi fattoriale compensino i carichi positivi e negativi dalle variabili originali. Ciò ridurrebbe la differenziazione che è lo scopo del raggruppamento.

Riesci a suddividere ciascun fattore estratto in 2: uno con solo i carichi positivi, l'altro solo con i carichi negativi?

Sostituisci i punteggi dei fattori per ciascun caso per ciascun fattore con punteggi positivi e punteggi negativi e prova a raggruppare su questo nuovo set di punteggi.

Inserisci una riga se funziona per te.


0

È possibile eseguire la scansione sia per valori elevati che anche per valori bassi e lasciare tutte le variabili nei fattori. In questo modo, non è necessario tagliare i fattori. Se si divide il Fattore 1 (diciamo) in un certo modo in base ai segni dei carichi, in Fattore 2, i segni possono essere abbastanza diversi. Tagliare quindi il fattore 2 in modo diverso dal fattore 1? Questo sembra essere confuso.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.