Penso che ci siano opinioni o punti di vista diversi su PCA, ma fondamentalmente la pensiamo spesso come una tecnica di riduzione (riduci lo spazio delle tue caratteristiche a uno più piccolo, spesso molto più "leggibile" purché ti occupi di centrare / standardizzare correttamente il dati quando è necessario) o un modo per costruire fattori latentio dimensioni che rappresentano una parte significativa della dispersione interindividuale (qui, gli "individui" rappresentano le unità statistiche su cui vengono raccolti i dati; questo può essere paese, persone, ecc.). In entrambi i casi, costruiamo combinazioni lineari delle variabili originali che rappresentano il massimo della varianza (quando proiettato sull'asse principale), soggetto a un vincolo di ortogonalità tra due componenti principali. Ora, ciò che è stato descritto è puramente algebrico o matematico e non lo consideriamo come un modello (generatore), contrariamente a quanto viene fatto nella tradizione dell'analisi fattoriale in cui includiamo un termine di errore per tenere conto di un qualche tipo di errore di misurazione . Mi piace anche l'introduzione di William Revelle nel suo prossimo manuale sulla psicometria applicata usando R (Capitolo 6), se vogliamo analizzare la struttura di una matrice di correlazione, allora
Il primo [approccio, PCA] è un modello che approssima la matrice di correlazione in termini di prodotto dei componenti in cui ogni componente è una somma lineare ponderata delle variabili, il secondo modello [analisi dei fattori] è anche un'approssimazione della matrice di correlazione di il prodotto di due fattori, ma i fattori in questo sono visti come cause piuttosto che come conseguenze delle variabili.
In altre parole, con PCA stai esprimendo ogni componente (fattore) come una combinazione lineare delle variabili mentre in FA queste sono le variabili che sono espresse come una combinazione lineare dei fattori. È ben noto che entrambi i metodi produrranno generalmente risultati abbastanza simili (vedi ad esempio Harman, 1976 o Catell, 1978), specialmente nel caso "ideale" in cui abbiamo un gran numero di individui e un buon fattore di rapporto: variabili (tipicamente variabili tra 2 e 10 a seconda degli autori che consideri!). Questo perché, stimando le diagonali nella matrice di correlazione (come avviene in FA, e questi elementi sono noti come comuni), la varianza dell'errore viene eliminata dalla matrice dei fattori. Questo è il motivo per cui la PCA è spesso usata come un modo per scoprire fattori latenti o costrutti psicologici al posto della FA sviluppata nel secolo scorso. Ma, proseguendo in questo modo, spesso vogliamo raggiungere un'interpretazione più semplice della struttura del fattore risultante (o della cosiddetta matrice del modello). E poi arriva l'utile trucco di ruotare l'asse fattoriale in modo da massimizzare i caricamenti di variabili su un fattore specifico o raggiungere in modo equivalente una "struttura semplice". Usando la rotazione ortogonale (ad es. VARIMAX), preserviamo l'indipendenza dei fattori. Con la rotazione obliqua (ad es. OBLIMIN, PROMAX), la spezziamo e i fattori possono correlarsi. Questo è stato ampiamente discusso in letteratura e ha portato alcuni autori (non psicometrici, ma statistici all'inizio del 1960 '
Ma il punto è che i metodi di rotazione sono stati originariamente sviluppati nel contesto dell'approccio FA e ora vengono abitualmente utilizzati con PCA. Non credo che ciò contraddica il calcolo algoritmico dei componenti principali: puoi ruotare i tuoi assi fattoriali nel modo desiderato, purché tieni presente che una volta correlata (mediante rotazione obliqua) l'interpretazione dello spazio fattoriale diventa meno ovvia.
La PCA viene abitualmente utilizzata durante lo sviluppo di nuovi questionari, sebbene in questo caso la FA sia probabilmente un approccio migliore perché stiamo cercando di estrarre fattori significativi che tengano conto degli errori di misurazione e le cui relazioni potrebbero essere studiate da sole (ad esempio prendendo in considerazione il modello risultante matrice, otteniamo un modello di fattore di secondo ordine). Ma il PCA è anche usato per verificare la struttura fattoriale di quelli già validati. I ricercatori non contano davvero di FA contro PCA quando hanno, affermano 500 soggetti rappresentativi a cui viene chiesto di valutare un questionario di 60 articoli che affronta cinque dmensions (questo è il caso del NEO-FFI, per esempio), e penso che abbiano ragione perché in questo caso non siamo molto interessati all'identificazione di un modello generativo o concettuale (il termine "rappresentante" viene qui utilizzato per alleviare il problema dell'invarianza della misurazione ).
Ora, sulla scelta del metodo di rotazione e sul perché alcuni autori discutono contro l'uso rigoroso della rotazione ortogonale, vorrei citare Paul Kline, come ho fatto in risposta alla seguente domanda, FA: Scelta della matrice di rotazione, basata su “Struttura semplice Criteri " ,
(...) nel mondo reale, non è irragionevole pensare che i fattori, come importanti determinanti del comportamento, sarebbero correlati. - P. Kline,
Intelligenza. The Psychometric View , 1991, pag. 19
Concluderei quindi che, a seconda dell'obiettivo del tuo studio (vuoi evidenziare i principali modelli della tua matrice di correlazione o cerchi di fornire un'interpretazione sensata dei meccanismi sottostanti che potrebbero averti indotto a osservare tale matrice di correlazione ), sei tu a scegliere il metodo più appropriato: questo non ha a che fare con la costruzione di combinazioni lineari, ma semplicemente sul modo in cui vuoi interpretare lo spazio fattoriale risultante.
Riferimenti
- Harman, HH (1976). Analisi fattoriale moderna . Chicago, Università di Chicago Press.
- Cattell, RB (1978). L'uso scientifico dell'analisi fattoriale . New York, Plenum.
- Kline, P. (1991). Intelligenza. La vista psicometrica . Routledge.