Creazione di un singolo indice da diversi componenti principali o fattori mantenuti da PCA / FA


15

Sto usando l'analisi dei componenti principali (PCA) per creare un indice richiesto per la mia ricerca. La mia domanda è come dovrei creare un singolo indice utilizzando i componenti principali mantenuti calcolati tramite PCA.

Ad esempio, ho deciso di conservare 3 componenti principali dopo aver utilizzato PCA e ho calcolato i punteggi per questi 3 componenti principali. Quali sono i modi appropriati per creare, per ciascun intervistato, un singolo indice tra questi 3 punteggi?

  • È rilevante aggiungere i 3 punteggi calcolati per avere un valore composito?
  • O fare una media dei 3 punteggi per avere un tale valore?
  • O dovrei semplicemente mantenere solo il primo componente principale (il più forte) e usare il suo punteggio come indice?

In alternativa, si potrebbe usare Factor Analysis (FA) ma rimane la stessa domanda: come creare un singolo indice basato su diversi punteggi di fattori?


4
I PC non sono correlati per definizione. Pertanto, come variabili, non duplicano le informazioni reciproche in alcun modo. Ciò significa che non esiste alcun motivo per creare un singolo valore (variabile composita) da essi. Oppure, a volte moltiplicarli potrebbe diventare interessante, forse - ma non sommare o fare una media.
ttnphns,

3
Sono d'accordo con @ttnphns: le tue prime due opzioni non hanno molto senso e l'intero sforzo di "combinare" tre PC in un indice sembra errato. Prendi il 1 ° PC come indice o usa del tutto un approccio diverso.
ameba dice che ripristini Monica il

2
@ttnphns non correlato, non indipendente. Potrebbero esserci informazioni ridondanti ripetute su PC, ma non in modo lineare.
congetture

1
@amoeba Grazie per il promemoria. Ho redatto versioni per il tag e il suo estratto su stats.stackexchange.com/tags/valuation/info .
whuber

1
@ttnphns Considereresti di pubblicare una risposta qui in base al tuo commento qui sopra? Ho appena iniziato una generosità qui perché continuano a comparire variazioni di questa domanda e non possiamo chiuderle come duplicati perché non esiste una risposta soddisfacente da nessuna parte.
ameba dice di reintegrare Monica il

Risposte:


11

Questa risposta è volutamente non matematica ed è orientata verso uno psicologo non statistico (diciamo) che chiede se può sommare / punteggi medi dei fattori di diversi fattori per ottenere un punteggio "indice composito" per ciascun intervistato.

Sommando o facendo la media dei punteggi di alcune variabili si assume che le variabili appartengano alla stessa dimensione e siano misure fungibili. (Nella domanda, le "variabili" sono punteggi dei componenti o dei fattori , che non cambiano la cosa, poiché sono esempi di variabili.)

inserisci qui la descrizione dell'immagine

In realtà (Fig. 1), gli intervistati 1 e 2 possono essere considerati ugualmente atipici (ovvero deviati da 0, il locus del data center o l'origine della scala), entrambi con lo stesso punteggio medio e ( 1.2 + .4 ) /(.8+.8)/2=.8 . Il valore .8 è valido, come l'entità della atipicità, per il costrutto X + Y perfettamente come era per X(1.2+.4)/2=.8.8X+YX e Yseparatamente. Le variabili correlate, che rappresentano la stessa dimensione, possono essere viste come misurazioni ripetute della stessa caratteristica e la differenza o la non equivalenza dei loro punteggi come errore casuale. Si consiglia pertanto di sommare / media i punteggi poiché si prevede che errori casuali si annullino a vicenda in spe .

Non è così se e Y non sono abbastanza correlati da poter vedere la stessa "dimensione". Per allora, la deviazione / atipicità di un intervistato è trasmessa dalla distanza euclidea dall'origine (Fig. 2).XY

inserisci qui la descrizione dell'immagine

Tale distanza è diversa per gli intervistati 1 e 2: e.82+.821.13, - il rispondente 2 è più lontano. Se le variabili sono dimensioni indipendenti, la distanza euclidea si riferisce comunque alla posizione di un rispondente rispetto al benchmark zero, ma il punteggio medio no. Prendi solo il massimo esempio conX=.8eY1.22+.421.26X=.8Y=.8X=0Y=0 . È vero per te?

Un'altra risposta qui menziona la somma ponderata o media, cioè wXXi+wYYiXYwXwYsono impostati costanti per tutti gli intervistati i, che è la causa del difetto. Per mettere in relazione la deviazione bivariata di un rispondente - in un cerchio o in un'ellisse - devono essere introdotti pesi dipendenti dai suoi punteggi; la distanza euclidea considerata precedentemente è in realtà un esempio di tale somma ponderata con pesi dipendenti dai valori. E se per te è importante incorporare varianze disuguali delle variabili (ad es. Dei componenti principali, come nella domanda) puoi calcolare la distanza euclidea ponderata, la distanza che si troverà in Fig. 2 dopo che il cerchio si allungherà.

|.8|+|.8|=1.6|1.2|+|.4|=1.6dare pari atipicità a Manhattan per due nostri intervistati; in realtà è la somma dei punteggi, ma solo quando i punteggi sono tutti positivi. In caso diX=.8Y=.81.60

(Potresti esclamare "Farò tutti i punteggi dei dati positivi e calcolerò la somma (o media) con buona coscienza da quando ho scelto la distanza di Manhatten", ma ti prego di pensare: hai ragione a spostare liberamente l'origine? Principali componenti o fattori, per esempio, vengono estratti a condizione che i dati siano stati centrati sulla media, il che ha un buon senso. Altre origini avrebbero prodotto altri componenti / fattori con altri punteggi. No, la maggior parte delle volte potresti non giocare con l'origine - il locus di "rispondente tipico" o di "tratto di livello zero" - come ti piace giocare.)

Per riassumere , se lo scopo del costrutto composito è quello di riflettere le posizioni degli intervistati relativamente a uno "zero" o locus tipico ma le variabili non sono affatto correlate, una sorta di distanza spaziale da quell'origine e non media (o somma), ponderata o non ponderato, dovrebbe essere scelto.

Bene, la media (somma) avrà senso se decidi di visualizzare le variabili (non correlate) come modalità alternative per misurare la stessa cosa. In questo modo stai deliberatamente ignorando la diversa natura delle variabili. In altre parole, lasci consapevolmente la Fig. 2 a favore della Fig. 1: "dimentichi" che le variabili sono indipendenti. Quindi - somma o media. Ad esempio, il punteggio sul "benessere materiale" e sul "benessere emotivo" potrebbe essere mediato, allo stesso modo punteggi su "QI spaziale" e "QI verbale". Questo tipo di puramente pragmatico, i compositi satisticamente non approvati sono chiamati indici di batteria (una raccolta di test o questionari che misurano cose non correlate o cose correlate le cui correlazioni che ignoriamo è chiamata "batteria"). Gli indici della batteria hanno senso solo se i punteggi hanno la stessa direzione (come la ricchezza e la salute emotiva sono visti come un polo "migliore"). La loro utilità al di fuori di strette impostazioni ad hoc è limitata.

Se le variabili sono relazioni intermedie - sono considerevolmente correlate non ancora abbastanza forti da vederle come duplicati, alternative, tra loro, spesso sommiamo (o mediano) i loro valori in modo ponderato. Quindi questi pesi dovrebbero essere attentamente progettati e dovrebbero riflettere, in questo modo, le correlazioni. Questo è ciò che facciamo, ad esempio, mediante PCA o analisi fattoriale (FA) in cui calcoliamo appositamente i punteggi componente / fattore. Se le tue variabili sono già punteggi componenti o fattore (come dice la domanda OP qui) e sono correlati (a causa della rotazione obliqua), puoi sottoporli (o direttamente alla matrice di caricamento) al PCA / FA del secondo ordine per trovare i pesi e ottieni il PC / fattore di secondo ordine che ti servirà "indice composito" per te.

Ma se i punteggi dei componenti / fattori erano non correlati o debolmente correlati, non vi è alcun motivo statistico né per sommarli senza mezzi termini né per dedurre pesi. Usa invece una certa distanza. Il problema con la distanza è che è sempre positivo: puoi dire quanto sia atipico un rispondente ma non puoi dire se è "sopra" o "sotto". Ma questo è il prezzo che devi pagare per richiedere un singolo indice dallo spazio multi-tratto. Se vuoi sia la deviazione che il segno in un tale spazio, direi che sei troppo esigente.

Nell'ultimo punto, il PO chiede se sia giusto prendere solo il punteggio di una variabile più forte rispetto alla sua varianza - 1 ° componente principale in questo caso - come unico proxy, per l '"indice". Ha senso se quel PC è molto più forte degli altri PC. Anche se uno potrebbe chiedersi allora "se è molto più forte, perché non hai estratto / mantenuto solo la suola?".


0

La creazione di un indice composito utilizzando PCA dai collegamenti di serie storiche a http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf .

In quell'articolo a pagina 19, gli autori menzionano un modo per creare un indice non standardizzato (NSI) usando la proporzione di variazione spiegata da ciascun fattore alla variazione totale spiegata dai fattori scelti. Questo NSI è stato quindi normalizzato.


6
Quella sezione a pagina 19 fa esattamente quella discutibile, problematica aggiunta di mele e arance a ciò che è stato messo in guardia da me e ameba nei commenti sopra. La somma delle variabili non correlate in un indice difficilmente ha alcun significato statistico .
ttnphns,

1
A volte aggiungiamo costrutti / scale / test che non sono correlati e misurano cose diverse. Quello sarebbe l' indice della batteria (i test che sono considerati abbastanza diversi / non correlati sono chiamati "batteria"). Un indice di batteria potrebbe avere un certo senso pragmatico locale sebbene manchi quasi di un significato statistico , come detto nel commento precedente.
ttnphns,


-1 a causa di quanto scritto sopra.
ameba dice di reintegrare Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.