PCA e Analisi fattoriale esplorativa sullo stesso set di dati: differenze e somiglianze; modello fattoriale vs PCA

Vorrei sapere se ha senso logico eseguire l'analisi dei componenti principali (PCA) e l'analisi dei fattori esplorativi (EFA) sullo stesso set di dati. Ho sentito che i professionisti raccomandano espressamente:

Capire qual è l'obiettivo dell'analisi e scegliere PCA o EFA per l'analisi dei dati;
Dopo aver effettuato un'analisi, non è necessario eseguire l'altra analisi.

Comprendo le differenze motivazionali tra i due, ma mi chiedevo solo se ci fosse qualcosa di sbagliato nell'interpretazione dei risultati forniti da PCA ed EFA allo stesso tempo?

pca factor-analysis

— user42538
fonte

Perché l'insicurezza? Se capisci le differenze motivazionali tra i due, dovresti trovarti in una delle due posizioni: considerali come complementari ed essere disposto a esplorare entrambi. Considerane uno molto più convincente per quello che vuoi fare. Sembra che tu voglia sentirti dire che c'è una cosa giusta da fare, ma l'APC con o contro l'AF è una zona di controversia di così vecchia data che se due esperti concordano, di solito è solo che entrambi non sono d'accordo con un terzo esperto, ma per diversi motivi.

— Nick Cox,

Cosa stai studiando? Alcune cose delle scienze sociali come la felicità o dati oggettivi come i tassi di interesse?

— Aksakal,

Entrambi i modelli - componente principale e fattore comune - sono modelli regressivi lineari simili simili che predicono le variabili osservate da variabili latenti. Cerchiamo di centrare le variabili V1 V2 ... Vp e abbiamo scelto di estrarre 2 componenti / fattori FI e FII . Quindi il modello è il sistema di equazioni:

$V_1 = a_{1I}F_I + a_{1II}F_{II} + E_1$

$V_2 = a_{2I}F_I + a_{2II}F_{II} + E_2$

$...$

$V_p = …$

dove il coefficiente a è un carico, F è un fattore o un componente e la variabile E è residui di regressione. Qui, il modello FA differisce dal modello PCA proprio per il fatto che FA impone il requisito: le variabili E1 E2 ... Ep (i termini di errore che non sono correlati alle F ) non devono essere correlati tra loro ( Vedi foto ). Queste variabili di errore FA chiamano "fattori unici"; le loro varianze sono note ("unicità") ma i loro valori casewise non lo sono. Pertanto, i punteggi dei fattori F vengono calcolati solo come buone approssimazioni, non sono esatti.

(Una presentazione algebrica della matrice di questo modello comune di analisi dei fattori si trova nella nota ). $^1$

Mentre in PCA le variabili di errore derivanti dalla previsione di variabili diverse possono essere liberamente correlate: nulla è loro imposto. Rappresentano quella "scoria" per la quale abbiamo preso le dimensioni p-2 lasciate fuori . Conosciamo i valori di E e quindi possiamo calcolare i punteggi dei componenti F come valori esatti.

Questa era la differenza tra il modello PCA e il modello FA.

È a causa della differenza sopra descritta, che l'AF è in grado di spiegare le correlazioni a coppie (covarianze). PCA generalmente non può farlo (a meno che il numero di componenti estratti = p ); può solo spiegare la varianza multivariata $^2$ . Pertanto, fintanto che il termine " Analisi fattoriale " è definito attraverso l'obiettivo di spiegare le correlazioni, la PCA non è un'analisi fattoriale. Se "Analisi fattoriale" è definita più ampiamente come un metodo che fornisce o suggerisce "tratti" latenti che potrebbero essere interpretati, la PCA può essere considerata una forma speciale e più semplice di analisi fattoriale.

A volte - in alcuni set di dati in determinate condizioni - PCA lascia termini E che quasi non intercorrelano. Quindi la PCA può spiegare le correlazioni e diventare come la FA. Non è insolito con set di dati con molte variabili. Ciò ha indotto alcuni osservatori a sostenere che i risultati della PCA si avvicinano ai risultati della FA man mano che i dati crescono. Non penso che sia una regola, ma la tendenza potrebbe davvero esserlo. Ad ogni modo, date le loro differenze teoriche, è sempre bene selezionare il metodo consapevolmente. La FA è un modello più realistico se si desidera ridurre le variabili ai latenti, che verranno considerati come tratti latenti reali in piedi dietro le variabili e rendendole correlate.

Ma se hai un altro obiettivo: ridurre la dimensionalità mantenendo il più possibile le distanze tra i punti del cloud di dati, PCA è migliore di FA. (Tuttavia, la procedura iterativa di ridimensionamento multidimensionale (MDS) sarà ancora migliore allora. PCA equivale a MDS metrico non ereditario.) Se non ti preoccupi ulteriormente delle distanze e sei interessato solo a preservare la maggior parte della varianza complessiva dei dati il più possibile, di poche dimensioni - PCA è una scelta ottimale.

Modello di dati di analisi fattoriale: , dove vieneanalizzato i dati (colonne centrate o standardizzate), èvalori di fattori comuni (quelli veri sconosciuti, non i punteggi di fattore) con unità varianza, è unamatrice di caricamenti di fattori comuni (matrice di modelli), èvalori di fattori univoci (sconosciuto), è ilvettore dei caricamenti di fattori univoci pari alla radice quadrata delle unicità ( ). Porzione $^1$ $\mathbf {V=FA'+E}diag \bf(u)$ $\bf V$ n cases x p variables $\bf F$ n x m $\bf A$ p x m $\bf E$ n x p $\bf u$ p $\bf u^2$ potrebbe essere semplicemente etichettato come "E" per semplicità, come nelle formule che aprono la risposta. $\mathbf E diag \bf(u)$

Principali ipotesi del modello:

variabili ed (fattori comuni e unici, rispettivamente) hanno zero medie e varianze unitarie; è generalmente considerato normale multivariato ma in generale non deve necessariamente essere normale multivariato (se entrambi sono considerati normali multivariati, allora losono anche ); $\bf F$ $\bf E$ $\bf E$ $\bf F$ $\bf V$
variabili non sono correlate tra loro e non sono correlate con levariabili $\bf E$ $\bf F$

Dalmodello dianalisi dei fattoricomuni derivache i caricamenti dimfattori comuni (variabilim<p), anch'essi indicati con , dovrebbero riprodurre da vicino le covarianze (o correlazioni) osservate tra le variabili, . In modo che se i fattori sono ortogonali, ilteorema del fattorefondamentaleafferma che $^2$ $\bf A$ $\bf A_{(m)}$ $\bf \Sigma$

e $\bf \hat{\Sigma} = AA'$ , $\bf \Sigma \approx \hat{\Sigma} + \it diag \bf (u^2)$

dove è la matrice di covarianza riprodotta (o correlazioni) con varianze comuni ( "comunalità") sulla sua diagonale; e le varianze uniche ("unicità") - che sono varianze meno comunità - sono il vettore . Le discrepanze off-diagonali ( $\bf \hat{\Sigma}$ $\bf u^2$ $\approx$ ) è dovuta al fatto che i fattori sono un modello teorico che genera dati e, in quanto tale, è più semplice dei dati osservati su cui è stato costruito. Le principali cause della discrepanza tra le covarianze osservate e quelle riprodotte (o correlazioni) possono essere: (1) il numero di fattori m non è statisticamente ottimale; (2) correlazioni parziali (queste sonop(p-1)/2i fattori che non appartengono a fattori comuni) sono pronunciati; (3) comunità non ben valutate, i loro valori iniziali erano stati poveri; (4) le relazioni non sono lineari, è discutibile l'uso del modello lineare; (5) il modello "sottotipo" prodotto con il metodo di estrazione non è ottimale per i dati (vedere sui diversi metodi di estrazione ). In altre parole, alcune ipotesi relative ai dati FA non sono pienamente soddisfatte.

Per quanto riguarda la semplice PCA , riproduce le covarianze dai caricamenti esattamente quando m = p (vengono utilizzati tutti i componenti) e di solito non lo fa se m < p (vengono conservati solo pochi primi componenti). Il teorema del fattore per PCA è:

, $\bf \Sigma= AA'_{(p)} = AA'_{(m)} + AA'_{(p-m)}$

quindi sia i caricamenti caricamenti rilasciati sono miscele di comunità e unicità e nessuno dei due può aiutare a ripristinare le covarianze. Più m è vicino a p , meglio PCA ripristina le covarianze, di regola, ma una piccola m (che spesso è di nostro interesse) non aiuta. Questo è diverso da FA, che ha lo scopo di ripristinare le covarianze con un numero ottimale di fattori piuttosto piccolo. Se avvicina alla diagonalità, PCA diventa come FA, con $\bf A_{(m)}$ $\bf A_{(p-m)}$ $\bf AA'_{(p-m)}$ ripristinare tutte le covarianze. Succede occasionalmente con PCA, come ho già detto. Ma il PCA manca della capacità algoritmica di forzare tale diagonalizzazione. Sono gli algoritmi FA che lo fanno. $\bf A_{(m)}$

La FA, non la PCA, è un modello generativo di dati: presume pochi "veri" fattori comuni (di solito di numero sconosciuto, quindi si prova m entro un intervallo) che generano valori "veri" per le covarianze. Le covarianze osservate sono quelle "vere" + piccolo rumore casuale. (È a causa della diagonalizzazione eseguita che ha lasciato l' unico restauratore di tutte le covarianze, che il rumore sopra può essere piccolo e casuale.) Cercare di adattare più fattori di quantità ottimali a tentativi di adattamento eccessivo e non necessariamente efficiente tentativo di adattamento . $\bf A_{(m)}$

Sia FA che PCA mirano a massimizzare , ma per PCA è l'unico obiettivo; per FA è l'obiettivo concomitante, l'altro è quello di diagonalizzare le unicità. Quella traccia è la somma degli autovalori nel PCA. Alcuni metodi di estrazione in FA aggiungono obiettivi più concomitanti a scapito di massimizzare la traccia, quindi non è di primaria importanza. $trace(\bf A'A_{(m)})$

Riassumendo le differenze esplicite tra i due metodi. FA mira ( direttamente o indirettamente ) a minimizzare le differenze tra i singoli elementi off-diagonali corrispondenti di e . Un modello FA di successo è quello che lascia errori per le covarianze piccole e casuali (normale o uniforme circa 0, senza valori anomali / code grasse). PCA massimizza solo che è uguale a (e $\bf \Sigma$ $\bf AA'$ $trace(\bf AA')$ $trace(\bf A'A)$ è uguale alla matrice di covarianza dei componenti principali, che è matrice diagonale). Pertanto la PCA non è "occupata" con tutte le singole covarianze: semplicemente non può, essendo semplicemente una forma di rotazione ortogonale dei dati. $\bf A'A$

Grazie alla massimizzazione della traccia - la varianza spiegata dai componenti m - PCA tiene conto delle covarianze, poiché la covarianza è varianza condivisa. In questo senso la PCA è "approssimazione di basso rango" dell'intera matrice di covarianza delle variabili. E se vista dal punto di vista delle osservazioni, questa approssimazione è l'approssimazione della matrice delle osservazioni a distanza euclidea (motivo per cui PCA è MDS metrico chiamato "Analisi delle coordinate principali). Questo fatto non dovrebbe schermarci dalla realtà che PCA non modella matrice di covarianza (ogni covarianza) generata da pochi tratti latenti viventi che sono immaginabili come trascendenti verso le nostre variabili; l'approssimazione PCA rimane immanente, anche se è buona: è una semplificazione dei dati.

Se vuoi vedere i calcoli passo-passo fatti in PCA e FA, commentati e confrontati, guarda qui .

— ttnphns
fonte

È un'ottima risposta

— Subhash C. Davar,

+1 per avermi fornito una nuova prospettiva di visualizzazione del PCA. Ora, a quanto ho capito, sia PCA che FA possono spiegare la varianza delle variabili osservate, e poiché FA impone che i termini di errore per ciascuna variabile non debbano essere correlati, mentre PCA non fa tale dettatura, quindi FA può catturare tutta la covarianza in le variabili osservate, ma PCA non riesce a farlo, perché in PCA i termini di errore potrebbero contenere anche una certa covarianza delle variabili osservate, a meno che non utilizziamo tutto il PC per rappresentare le variabili osservate, giusto?

— avocado,

Esattamente. PCA può non solo sottovalutare un valore di covarianza (come probabilmente si potrebbe pensare), ma può anche sopravvalutarlo. In breve, a1 * a2 <> Cov12, che è un comportamento normale per PCA. Per FA, questo sarebbe il segno di una soluzione non ottimale (ad esempio, un numero errato di fattori estratti).

— ttnphns,

@ttnphns: +1, ma sono abbastanza confuso. Conosco abbastanza bene la PCA, ma so molto poco sulla FA. La mia comprensione era che in PCA la matrice di covarianza è decomposta come

Σ = W W^{⊤} + σ^{2} I

$\Sigma = WW^\top+\sigma^2 I$ e in FA come

Σ = W W^{⊤} + Ψ

$\Sigma = WW^\top+\Psi$ con diagonale

Ψ

$\Psi$ , cioè la PCA assume la covarianza del rumore isotropo e quella FA-diagonale. È così che mi sono imbattuto nel libro di testo di Bishop e in tutti i trattamenti sulla PCA probabilistica (PPCA). Fondamentalmente, in entrambi i casi la covarianza del rumore è diagonale, ovvero i termini del rumore non sono correlati. Come posso riconciliarlo con ciò che hai scritto qui?

— ameba dice che ripristini Monica il

@amoeba, elementi off-diagonali di

Σ

$\Sigma$ sono teoricamente ripristinati in FA da

W W^{'}

$WW'$ (

W

$W$ = i caricamenti), ma teoricamente non vengono ripristinati in PCA (e così via

Ψ

$\Psi$ non è diagonale, ma è quadrato, in PCA). Non ho studiato PPCA, scusa (è possibile scaricare il libro di Bishop?). Cosa è

σ^{2}

$\sigma^2$ in your notation? And please define "isotropic".

— ttnphns

I provided my own account of the similarities and differences between PCA and FA in the following thread: Is there any good reason to use PCA instead of EFA? Also, can PCA be a substitute for factor analysis?

Nota che il mio account è leggermente diverso da quello di @ttnphns (come presentato nella sua risposta sopra). La mia affermazione principale è che PCA e FA non sono così diversi come si pensa spesso. Possono in effetti differire notevolmente quando il numero di variabili è molto basso, ma tendono a produrre risultati abbastanza simili una volta che il numero di variabili supera una dozzina. Vedi la mia [lunga!] Risposta nel thread collegato per dettagli matematici e simulazioni Monte Carlo. Per una versione molto più concisa del mio argomento, vedi qui: A quali condizioni PCA e FA producono risultati simili?

Qui vorrei rispondere esplicitamente alla tua domanda principale: c'è qualcosa di sbagliato nell'eseguire PCA e FA sullo stesso set di dati? La mia risposta a questa domanda è: No.

Quando si esegue PCA o FA, non si sta verificando alcuna ipotesi. Entrambe sono tecniche esplorative utilizzate per comprendere meglio i dati. Quindi perché non esplorare i dati con due strumenti diversi? In effetti, facciamolo!

Esempio: set di dati sul vino

Come illustrazione, ho usato un set di dati sul vino abbastanza noto con $n=178$ vini di tre diverse uve descritte da $p=13$ variabili. Vedi la mia risposta qui: quali sono le differenze tra analisi fattoriale e analisi dei componenti principali? per i dettagli sulla modalità, ma brevemente - ho eseguito analisi PCA e FA e ho creato biplot 2D per entrambi. Si può facilmente vedere che la differenza è minima:

Analisi PCA e FA dell'insieme di dati del vino

— ameba dice Reinstate Monica
fonte

If the results turn out to be very similar, then you can decide to stick with only one approach. Sicuro. Quanto simile allora? If the results turn out to be very different, then maybe it tells you something about your dataÈ perfettamente mistico ed esoterico.

— ttnphns,

Hmmm, scusa se non è chiaro. Quello che volevo dire è che se ci sono molte variabili e PCA produce carichi molto diversi da FA, ci dice qualcosa. Forse, le comunità sono molto basse (cioè la matrice di correlazione è dominata dalla diagonale e gli elementi fuori diagonale sono piccoli). Questa può essere un'osservazione interessante. Se per qualche motivo analizzassi lo stesso set di dati con PCA e FA e ottenessi risultati molto diversi, lo analizzerei ulteriormente. Ha senso?

— ameba dice di reintegrare Monica il

@ttnphns: ho effettuato un aggiornamento con un esempio elaborato per un determinato set di dati. Spero che ti piacerà! Vedi anche la mia (nuova) risposta collegata. È la prima volta che faccio un biplot di FA e le nostre precedenti conversazioni mi hanno aiutato molto.

— ameba dice di reintegrare Monica il