Entrambi i modelli - componente principale e fattore comune - sono modelli regressivi lineari simili simili che predicono le variabili osservate da variabili latenti. Cerchiamo di centrare le variabili V1 V2 ... Vp e abbiamo scelto di estrarre 2 componenti / fattori FI e FII . Quindi il modello è il sistema di equazioni:
V1=a1IFI+a1IIFII+E1
V2= a2 IFio+ a2 IioFioio+ E2
. . .
Vp= ...
dove il coefficiente a è un carico, F è un fattore o un componente e la variabile E è residui di regressione. Qui, il modello FA differisce dal modello PCA proprio per il fatto che FA impone il requisito: le variabili E1 E2 ... Ep (i termini di errore che non sono correlati alle F ) non devono essere correlati tra loro ( Vedi foto ). Queste variabili di errore FA chiamano "fattori unici"; le loro varianze sono note ("unicità") ma i loro valori casewise non lo sono. Pertanto, i punteggi dei fattori F vengono calcolati solo come buone approssimazioni, non sono esatti.
(Una presentazione algebrica della matrice di questo modello comune di analisi dei fattori si trova nella nota 1 ).1
Mentre in PCA le variabili di errore derivanti dalla previsione di variabili diverse possono essere liberamente correlate: nulla è loro imposto. Rappresentano quella "scoria" per la quale abbiamo preso le dimensioni p-2 lasciate fuori . Conosciamo i valori di E e quindi possiamo calcolare i punteggi dei componenti F come valori esatti.
Questa era la differenza tra il modello PCA e il modello FA.
È a causa della differenza sopra descritta, che l'AF è in grado di spiegare le correlazioni a coppie (covarianze). PCA generalmente non può farlo (a meno che il numero di componenti estratti = p ); può solo spiegare la varianza multivariata 22 . Pertanto, fintanto che il termine " Analisi fattoriale " è definito attraverso l'obiettivo di spiegare le correlazioni, la PCA non è un'analisi fattoriale. Se "Analisi fattoriale" è definita più ampiamente come un metodo che fornisce o suggerisce "tratti" latenti che potrebbero essere interpretati, la PCA può essere considerata una forma speciale e più semplice di analisi fattoriale.
A volte - in alcuni set di dati in determinate condizioni - PCA lascia termini E che quasi non intercorrelano. Quindi la PCA può spiegare le correlazioni e diventare come la FA. Non è insolito con set di dati con molte variabili. Ciò ha indotto alcuni osservatori a sostenere che i risultati della PCA si avvicinano ai risultati della FA man mano che i dati crescono. Non penso che sia una regola, ma la tendenza potrebbe davvero esserlo. Ad ogni modo, date le loro differenze teoriche, è sempre bene selezionare il metodo consapevolmente. La FA è un modello più realistico se si desidera ridurre le variabili ai latenti, che verranno considerati come tratti latenti reali in piedi dietro le variabili e rendendole correlate.
Ma se hai un altro obiettivo: ridurre la dimensionalità mantenendo il più possibile le distanze tra i punti del cloud di dati, PCA è migliore di FA. (Tuttavia, la procedura iterativa di ridimensionamento multidimensionale (MDS) sarà ancora migliore allora. PCA equivale a MDS metrico non ereditario.) Se non ti preoccupi ulteriormente delle distanze e sei interessato solo a preservare la maggior parte della varianza complessiva dei dati il più possibile, di poche dimensioni - PCA è una scelta ottimale.
Modello di dati di analisi fattoriale: V = F A ′ + E d i a g ( u ) , dove V vieneanalizzato i dati (colonne centrate o standardizzate), F èvalori di fattori comuni (quelli veri sconosciuti, non i punteggi di fattore) con unità varianza, A è unamatrice di caricamenti di fattori comuni (matrice di modelli), E èvalori di fattori univoci (sconosciuto), u è ilvettore dei caricamenti di fattori univoci pari alla radice quadrata delle unicità ( u 2 ). Porzione1V = F A'+ E dio a g( u )Vn cases x p variables
Fn x m
UNp x m
En x p
up
u2 potrebbe essere semplicemente etichettato come "E" per semplicità, come nelle formule che aprono la risposta.E dio a g( u )
Principali ipotesi del modello:
- variabili F ed E (fattori comuni e unici, rispettivamente) hanno zero medie e varianze unitarie;
E è generalmente considerato normale multivariato ma F in generale non deve necessariamente essere normale multivariato (se entrambi sono considerati normali multivariati, allora losono anche V );FEEFV
- variabili E non sono correlate tra loro e non sono correlate con levariabili F.EF
Dalmodello dianalisi dei fattoricomuni derivache i caricamenti A dimfattori comuni (variabilim<p), anch'essi indicati con A ( m ) , dovrebbero riprodurre da vicino le covarianze (o correlazioni) osservate tra le variabili, Σ . In modo che se i fattori sono ortogonali, ilteorema del fattorefondamentaleafferma che2 UNUN( m )Σ
eΣ≈ Σ +diunag(u2Σ^= A A' ,Σ ≈ Σ^+ d i a g ( u2)
dove Σ è la matrice di covarianza riprodotta (o correlazioni) con varianze comuni ( "comunalità") sulla sua diagonale; e le varianze uniche ("unicità") - che sono varianze meno comunità - sono il vettore u 2 . Le discrepanze off-diagonali ( ≈Σ^u2≈ ) è dovuta al fatto che i fattori sono un modello teorico che genera dati e, in quanto tale, è più semplice dei dati osservati su cui è stato costruito. Le principali cause della discrepanza tra le covarianze osservate e quelle riprodotte (o correlazioni) possono essere: (1) il numero di fattori m non è statisticamente ottimale; (2) correlazioni parziali (queste sonop(p-1)/2
i fattori che non appartengono a fattori comuni) sono pronunciati; (3) comunità non ben valutate, i loro valori iniziali erano stati poveri; (4) le relazioni non sono lineari, è discutibile l'uso del modello lineare; (5) il modello "sottotipo" prodotto con il metodo di estrazione non è ottimale per i dati (vedere sui diversi metodi di estrazione ). In altre parole, alcune ipotesi relative ai dati FA non sono pienamente soddisfatte.
Per quanto riguarda la semplice PCA , riproduce le covarianze dai caricamenti esattamente quando m = p (vengono utilizzati tutti i componenti) e di solito non lo fa se m < p (vengono conservati solo pochi primi componenti). Il teorema del fattore per PCA è:
,Σ = A A'( p )= A A'( m )+ A A'( p - m )
quindi sia i caricamenti caricamenti A ( p - m ) rilasciati sono miscele di comunità e unicità e nessuno dei due può aiutare a ripristinare le covarianze. Più m è vicino a p , meglio PCA ripristina le covarianze, di regola, ma una piccola m (che spesso è di nostro interesse) non aiuta. Questo è diverso da FA, che ha lo scopo di ripristinare le covarianze con un numero ottimale di fattori piuttosto piccolo. Se A A ′ ( p - m ) si avvicina alla diagonalità, PCA diventa come FA, con AUN( m )UN( p - m )A A'( p - m ) ripristinare tutte le covarianze. Succede occasionalmente con PCA, come ho già detto. Ma il PCA manca della capacità algoritmica di forzare tale diagonalizzazione. Sono gli algoritmi FA che lo fanno.UN( m )
La FA, non la PCA, è un modello generativo di dati: presume pochi "veri" fattori comuni (di solito di numero sconosciuto, quindi si prova m entro un intervallo) che generano valori "veri" per le covarianze. Le covarianze osservate sono quelle "vere" + piccolo rumore casuale. (È a causa della diagonalizzazione eseguita che ha lasciato l' unico restauratore di tutte le covarianze, che il rumore sopra può essere piccolo e casuale.) Cercare di adattare più fattori di quantità ottimali a tentativi di adattamento eccessivo e non necessariamente efficiente tentativo di adattamento .UN( m )
Sia FA che PCA mirano a massimizzare , ma per PCA è l'unico obiettivo; per FA è l'obiettivo concomitante, l'altro è quello di diagonalizzare le unicità. Quella traccia è la somma degli autovalori nel PCA. Alcuni metodi di estrazione in FA aggiungono obiettivi più concomitanti a scapito di massimizzare la traccia, quindi non è di primaria importanza.t r a c e ( A'UN( m ))
Riassumendo le differenze esplicite tra i due metodi. FA mira ( direttamente o indirettamente ) a minimizzare le differenze tra i singoli elementi off-diagonali corrispondenti di e A A ′ . Un modello FA di successo è quello che lascia errori per le covarianze piccole e casuali (normale o uniforme circa 0, senza valori anomali / code grasse). PCA massimizza solo t r a c e ( A A ′ ) che è uguale a t r a c e ( A ′ A ) (eΣA A't r a c e ( A A')t r a c e ( A'A ) è uguale alla matrice di covarianza dei componenti principali, che è matrice diagonale). Pertanto la PCA non è "occupata" con tutte le singole covarianze: semplicemente non può, essendo semplicemente una forma di rotazione ortogonale dei dati.UN'UN
Grazie alla massimizzazione della traccia - la varianza spiegata dai componenti m - PCA tiene conto delle covarianze, poiché la covarianza è varianza condivisa. In questo senso la PCA è "approssimazione di basso rango" dell'intera matrice di covarianza delle variabili. E se vista dal punto di vista delle osservazioni, questa approssimazione è l'approssimazione della matrice delle osservazioni a distanza euclidea (motivo per cui PCA è MDS metrico chiamato "Analisi delle coordinate principali). Questo fatto non dovrebbe schermarci dalla realtà che PCA non modella matrice di covarianza (ogni covarianza) generata da pochi tratti latenti viventi che sono immaginabili come trascendenti verso le nostre variabili; l'approssimazione PCA rimane immanente, anche se è buona: è una semplificazione dei dati.
Se vuoi vedere i calcoli passo-passo fatti in PCA e FA, commentati e confrontati, guarda qui .