Questa risposta è volutamente non matematica ed è orientata verso uno psicologo non statistico (diciamo) che chiede se può sommare / punteggi medi dei fattori di diversi fattori per ottenere un punteggio "indice composito" per ciascun intervistato.
Sommando o facendo la media dei punteggi di alcune variabili si assume che le variabili appartengano alla stessa dimensione e siano misure fungibili. (Nella domanda, le "variabili" sono punteggi dei componenti o dei fattori , che non cambiano la cosa, poiché sono esempi di variabili.)
In realtà (Fig. 1), gli intervistati 1 e 2 possono essere considerati ugualmente atipici (ovvero deviati da 0, il locus del data center o l'origine della scala), entrambi con lo stesso punteggio medio e ( 1.2 + .4 ) /(.8+.8)/2=.8 . Il valore .8 è valido, come l'entità della atipicità, per il costrutto X + Y perfettamente come era per X(1.2+.4)/2=.8.8X+YX e Yseparatamente. Le variabili correlate, che rappresentano la stessa dimensione, possono essere viste come misurazioni ripetute della stessa caratteristica e la differenza o la non equivalenza dei loro punteggi come errore casuale. Si consiglia pertanto di sommare / media i punteggi poiché si prevede che errori casuali si annullino a vicenda in spe .
Non è così se e Y non sono abbastanza correlati da poter vedere la stessa "dimensione". Per allora, la deviazione / atipicità di un intervistato è trasmessa dalla distanza euclidea dall'origine (Fig. 2).XY
Tale distanza è diversa per gli intervistati 1 e 2: e.82+.82−−−−−−−√≈1.13, - il rispondente 2 è più lontano. Se le variabili sono dimensioni indipendenti, la distanza euclidea si riferisce comunque alla posizione di un rispondente rispetto al benchmark zero, ma il punteggio medio no. Prendi solo il massimo esempio conX=.8eY1.22+.42−−−−−−−−√≈1.26X=.8Y=−.8X=0Y=0 . È vero per te?
Un'altra risposta qui menziona la somma ponderata o media, cioè wXXi+wYYiXYwXwYsono impostati costanti per tutti gli intervistati i, che è la causa del difetto. Per mettere in relazione la deviazione bivariata di un rispondente - in un cerchio o in un'ellisse - devono essere introdotti pesi dipendenti dai suoi punteggi; la distanza euclidea considerata precedentemente è in realtà un esempio di tale somma ponderata con pesi dipendenti dai valori. E se per te è importante incorporare varianze disuguali delle variabili (ad es. Dei componenti principali, come nella domanda) puoi calcolare la distanza euclidea ponderata, la distanza che si troverà in Fig. 2 dopo che il cerchio si allungherà.
|.8|+|.8|=1.6|1.2|+|.4|=1.6dare pari atipicità a Manhattan per due nostri intervistati; in realtà è la somma dei punteggi, ma solo quando i punteggi sono tutti positivi. In caso diX=.8Y=−.81.60
(Potresti esclamare "Farò tutti i punteggi dei dati positivi e calcolerò la somma (o media) con buona coscienza da quando ho scelto la distanza di Manhatten", ma ti prego di pensare: hai ragione a spostare liberamente l'origine? Principali componenti o fattori, per esempio, vengono estratti a condizione che i dati siano stati centrati sulla media, il che ha un buon senso. Altre origini avrebbero prodotto altri componenti / fattori con altri punteggi. No, la maggior parte delle volte potresti non giocare con l'origine - il locus di "rispondente tipico" o di "tratto di livello zero" - come ti piace giocare.)
Per riassumere , se lo scopo del costrutto composito è quello di riflettere le posizioni degli intervistati relativamente a uno "zero" o locus tipico ma le variabili non sono affatto correlate, una sorta di distanza spaziale da quell'origine e non media (o somma), ponderata o non ponderato, dovrebbe essere scelto.
Bene, la media (somma) avrà senso se decidi di visualizzare le variabili (non correlate) come modalità alternative per misurare la stessa cosa. In questo modo stai deliberatamente ignorando la diversa natura delle variabili. In altre parole, lasci consapevolmente la Fig. 2 a favore della Fig. 1: "dimentichi" che le variabili sono indipendenti. Quindi - somma o media. Ad esempio, il punteggio sul "benessere materiale" e sul "benessere emotivo" potrebbe essere mediato, allo stesso modo punteggi su "QI spaziale" e "QI verbale". Questo tipo di puramente pragmatico, i compositi satisticamente non approvati sono chiamati indici di batteria (una raccolta di test o questionari che misurano cose non correlate o cose correlate le cui correlazioni che ignoriamo è chiamata "batteria"). Gli indici della batteria hanno senso solo se i punteggi hanno la stessa direzione (come la ricchezza e la salute emotiva sono visti come un polo "migliore"). La loro utilità al di fuori di strette impostazioni ad hoc è limitata.
Se le variabili sono relazioni intermedie - sono considerevolmente correlate non ancora abbastanza forti da vederle come duplicati, alternative, tra loro, spesso sommiamo (o mediano) i loro valori in modo ponderato. Quindi questi pesi dovrebbero essere attentamente progettati e dovrebbero riflettere, in questo modo, le correlazioni. Questo è ciò che facciamo, ad esempio, mediante PCA o analisi fattoriale (FA) in cui calcoliamo appositamente i punteggi componente / fattore. Se le tue variabili sono già punteggi componenti o fattore (come dice la domanda OP qui) e sono correlati (a causa della rotazione obliqua), puoi sottoporli (o direttamente alla matrice di caricamento) al PCA / FA del secondo ordine per trovare i pesi e ottieni il PC / fattore di secondo ordine che ti servirà "indice composito" per te.
Ma se i punteggi dei componenti / fattori erano non correlati o debolmente correlati, non vi è alcun motivo statistico né per sommarli senza mezzi termini né per dedurre pesi. Usa invece una certa distanza. Il problema con la distanza è che è sempre positivo: puoi dire quanto sia atipico un rispondente ma non puoi dire se è "sopra" o "sotto". Ma questo è il prezzo che devi pagare per richiedere un singolo indice dallo spazio multi-tratto. Se vuoi sia la deviazione che il segno in un tale spazio, direi che sei troppo esigente.
Nell'ultimo punto, il PO chiede se sia giusto prendere solo il punteggio di una variabile più forte rispetto alla sua varianza - 1 ° componente principale in questo caso - come unico proxy, per l '"indice". Ha senso se quel PC è molto più forte degli altri PC. Anche se uno potrebbe chiedersi allora "se è molto più forte, perché non hai estratto / mantenuto solo la suola?".