Una spiegazione di base, ma una sorta di scrupolosa, dell'analisi PCA vs Factor con l'aiuto di grafici a dispersione, in passaggi logici. (Ringrazio @amoeba che, nel suo commento alla domanda, mi ha incoraggiato a pubblicare una risposta al posto di creare collegamenti ad altrove. Quindi ecco una risposta per il tempo libero e in ritardo.)
PCA come riepilogo variabile (estrazione delle caratteristiche)
Spero che tu abbia già capito PCA. Per rivivere ora.
V1V2un'
P1 = a 11V1+ a 12V2
P2 = a 21V1+ a 22V2
Tali coefficienti sono coseni di rotazione (= direzione coseni, direzioni principali) e comprendono quelli che sono chiamati autovettori, mentre gli autovalori della matrice di covarianza sono le varianze dei componenti principali. In PCA, di solito scartiamo gli ultimi componenti deboli: riassumiamo così i dati per pochi componenti estratti per primi, con poca perdita di informazioni.
Covariances
V1 V2
V1 1.07652 .73915
V2 .73915 .95534
----PCA----
Eigenvalues %
P1 1.75756 86.500
P2 .27430 13.500
Eigenvectors
P1 P2
V1 .73543 -.67761
V2 .67761 .73543
Con i nostri dati tracciati, i valori dei componenti P1 (punteggi) P1 = .73543*V1 + .67761*V2
e il componente P2 vengono scartati. La varianza di P1 è 1.75756
, il primo autovalore della matrice di covarianza, e quindi P1 spiega 86.5%
la varianza totale che è uguale (1.07652+.95534) = (1.75756+.27430)
.
PCA come previsione variabile (funzione "latente")
P1 V1V2
V1= a 11P1 + E1
V2= a 12P1 + E2
un'E
V1^= a 11P1V2^= a 12P1E1= V1- V1^E2= V2- V2^
Ora, la caratteristica della PCA è che se calcoliamo E1 ed E2 per ogni punto nei dati e tracciamo queste coordinate - cioè facciamo il grafico a dispersione degli errori da soli, i "dati di errore" del cloud coincideranno con il componente P2 scartato. E lo fa: la nuvola viene tracciata sulla stessa immagine della nuvola beige - e si vede in realtà forma l'asse P2 (di Fig.1 ) come piastrellato con i punteggi dei componenti P2.
Nessuna meraviglia, potresti dire. È così ovvio: in PCA , i componenti junior scartati sono ciò che si decompone precisamente negli errori di previsione E, nel modello che spiega (ripristina) le variabili originali V con la caratteristica latente (e) P1. Gli errori E insieme costituiscono semplicemente i componenti esclusi. Qui è dove l' analisi dei fattori inizia a differire dalla PCA.
L'idea di FA comune (caratteristica latente)
Formalmente, il modello che predice le variabili manifest mediante le caratteristiche latenti estratte è lo stesso in FA come in PCA; [ Eq.3 ]:
V1= a1F+ E1
V2= a2F+ E2
dove F è il fattore comune latente estratto dai dati e che sostituisce ciò che era P1 in Eq.2 . La differenza nel modello è che in FA, a differenza di PCA, le variabili di errore (E1 ed E2) devono essere non correlate tra loro .
un'un'un'un'un'un'un'
OK, torna al thread. E1 ed E2 non sono correlati nell'analisi fattoriale; quindi, dovrebbero formare una nuvola di errori sia rotondi che ellittici ma non orientati in diagonale. Mentre erano in PCA la loro nuvola formava una linea retta che coincideva con P2 in diagonale. Entrambe le idee sono dimostrate nella foto:
Si noti che gli errori sono nuvola rotonda (non diagonalmente allungata) in FA. Il fattore (latente) in FA è orientato in qualche modo diverso, cioè non è giusto il primo componente principale che è il "latente" in PCA. Nella foto, la linea del fattore è un po 'stranamente conica - diventerà chiaro perché alla fine.
Qual è il significato di questa differenza tra PCA e FA?Variabili correlate, che si vede nella forma diagonale ellittica del cloud di dati. P1 ha scremato la varianza massima, quindi l'ellisse è co-diretta a P1. Di conseguenza P1 ha spiegato da solo la correlazione; ma non ha spiegato adeguatamente la quantità esistente di correlazione ; sembrava spiegare la variazione dei punti dati, non la correlazione. In realtà, ha sovrastimato la correlazione, il cui risultato è stato la comparsa della nuvola diagonale e correlata di errori che compensano l'eccesso di conto. P1 da solo non può spiegare in modo completo la forza della correlazione / covariazione. Fattore F puòfallo da solo; e la condizione quando diventa in grado di farlo è esattamente dove gli errori possono essere costretti a non essere correlati. Poiché la nuvola di errori è rotonda, nessuna correlazione - positiva o negativa - è rimasta dopo l'estrazione del fattore, quindi è il fattore che ha scremato tutto.
Come riduzione della dimensionalità, PCA spiega la varianza ma spiega le correlazioni in modo impreciso. FA spiega le correlazioni ma non è in grado di spiegare (secondo i fattori comuni) quante più variazioni di dati possibile della PCA. I fattori in FA rappresentano quella parte della variabilità che è la porzione correlativa netta, chiamata comunalità ; e quindi i fattori possono essere interpretati come forze / caratteristiche / tratti reali ma non osservabili che nascondono "in" o "dietro" le variabili di input per metterle in correlazione. Perché spiegano la correlazione in modo matematico. I componenti principali (pochi primi) lo spiegano matematicamente non altrettanto e quindi possono essere chiamati "tratto latente" (o simile) solo a un certo tratto e provvisoriamente .
La moltiplicazione dei caricamenti è ciò che spiega (ripristina) la correlazione o la correlazione sotto forma di covarianza - se l'analisi si basava sulla matrice di covarianza (come nell'esempio precedente) piuttosto che sulla matrice di correlazione. L'analisi fattoriale che ho fatto con i dati ha prodotto a_1=.87352, a_2=.84528
, quindi il prodotto a_1*a_2 = .73837
è quasi uguale alla covarianza.73915
. D'altra parte, i caricamenti di PCA erano a1_1=.97497, a1_2=.89832
, quindi a1_1*a1_2 = .87584
sopravvaluta .73915
considerevolmente.
Avendo spiegato la principale distinzione teorica tra PCA e FA, torniamo ai nostri dati per esemplificare l'idea.
FA: soluzione approssimativa (punteggi dei fattori)
Di seguito è riportato il grafico a dispersione che mostra i risultati dell'analisi che chiameremo provvisoriamente "analisi dei fattori subottimali", Fig.3 .
A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).
Vedi le partenze dalla Fig.2 della PCA. La nuvola beige degli errori non è rotonda, è diagonalmente ellittica, ma è evidentemente molto più grassa della sottile linea diagonale che si è verificata nel PCA. Si noti inoltre che i connettori di errore (mostrati per alcuni punti) non sono più paralleli (in PCA, erano per definizione paralleli a P2). Inoltre, se si osservano, ad esempio, i punti "F" ed "E" che si specchiano simmetricamente sull'asse F del fattore , si troverà, inaspettatamente, che i relativi punteggi dei fattori saranno valori abbastanza diversi. In altre parole, i punteggi dei fattori non si limitano a trasformare linearmente i punteggi dei componenti principali: il fattore F si trova a modo suo diverso dal modo P1. E i loro assi non coincidono completamente se mostrati insieme sullo stesso diagramma Fig.4 :
A parte il fatto che sono un po 'diversamente orientati, F (come piastrellato con i punteggi) è più breve, cioè rappresenta una varianza minore rispetto a quella di P1. Come notato in precedenza, il fattore tiene conto solo della variabilità che è responsabile della correlazione di V1 V2, vale a dire la parte della varianza totale che è sufficiente a portare le variabili dalla covarianza primordiale0
alla covarianza fattuale .73915
.
FA: soluzione ottimale (fattore reale)
Una soluzione di fattore ottimale è quando gli errori sono tonde ellittiche rotonde o non diagonali: E1 ed E2 sono completamente non correlati . L'analisi fattoriale effettivamente ritorna una soluzione così ottimale. Non l'ho mostrato su un semplice diagramma a dispersione come quelli sopra. Perché l'ho fatto? - dopo tutto sarebbe stata la cosa più interessante.
Il motivo è che sarebbe impossibile mostrarsi su un diagramma a dispersione in modo sufficientemente adeguato, anche adottando una trama 3D. È un punto abbastanza interessante teoricamente. Per rendere completamente non correlati E1 ed E2, sembra che tutte e tre queste variabili, F, E1, E2 non debbano trovarsi nello spazio (piano) definito da V1, V2; e i tre devono essere non correlati tra loro . Credo che sia possibile disegnare un tale diagramma a dispersione in 5D (e forse con qualche espediente - in 4D), ma viviamo nel mondo 3D, ahimè. Il fattore F deve essere non correlato a E1 ed E2 (mentre anche loro due non sono correlati) perché F dovrebbe essere l' unica (pulita) e completa fonte di correlazione nei dati osservati. L'analisi fattoriale divide la varianza totale dip
inserire le variabili in due parti non correlate (non sovrapposte): -dimensionale, dove gli errori sono, chiamati anche fattori unici, reciprocamente non correlati).parte di comunità ( m
-dimensionale, dove m
dominano i fattori comuni) e parte di unicità (p
Quindi scusa per non aver mostrato il vero fattore dei nostri dati su un diagramma a dispersione qui. Potrebbe essere visualizzato abbastanza adeguatamente tramite vettori nello "spazio soggetto" come fatto qui senza mostrare punti dati.
Sopra, nella sezione "L'idea di FA comune (caratteristica latente)" ho visualizzato il fattore (asse F) come un cuneo per avvertire che l'asse vero del fattore non giace sul piano V1 V2. Ciò significa che - diversamente dal componente principale P1 - il fattore F come asse non è una rotazione dell'asse V1 o V2 nel loro spazio e F come variabile non è una combinazione lineare delle variabili V1 e V2. Pertanto F è modellato (estratto dalle variabili V1 v2) come se fosse una variabile esterna indipendente, non una derivazione di esse. Equazioni come l' Eq.1 da dove inizia la PCA, non sono applicabili per calcolare il vero fattore (ottimale) nell'analisi fattoriale, mentre le equazioni formalmente isomorfe Eq.2 e Eq.3sono validi per entrambe le analisi. Cioè, in PCA le variabili generano componenti e componenti indietro prevedono variabili; in FA fattore (s) generano / predire le variabili, e non indietro - comune modello fattoriale presuppone concettualmente così , anche se tecnicamente fattori sono estratte dalle variabili osservate.
Non solo il fattore vero non è una funzione delle variabili manifest, ma i valori del fattore vero non sono definiti in modo univoco . In altre parole, sono semplicemente sconosciuti. Tutto ciò è dovuto al fatto che siamo nello spazio analitico 5D eccessivo e non nello spazio 2D domestico dei dati. Solo buone approssimazioni ( esistono diversi metodi ) ai valori dei fattori reali, chiamati punteggi dei fattoriCi sono . I punteggi dei fattori si trovano nel piano V1 V2, come i punteggi dei componenti principali, sono calcolati anche come funzioni lineari di V1, V2, e se fosseroche ho tracciato nella sezione "FA: soluzione approssimativa (punteggi dei fattori)". I punteggi dei componenti principali sono valori dei componenti reali; i punteggi dei fattori sono solo un'approssimazione ragionevole ai valori di fattore reale indeterminati.
FA: carrellata della procedura
un'
Pertanto, la "soluzione dei fattori" visualizzata da me nella sezione "FA: soluzione approssimativa (punteggi dei fattori)" si basava effettivamente su caricamenti ottimali, cioè su fattori reali. Ma i punteggi non erano ottimali, per destino. I punteggi sono calcolati come una funzione lineare delle variabili osservate, come lo sono i punteggi dei componenti, quindi entrambi potrebbero essere confrontati su un diagramma a dispersione e l'ho fatto in ricerca didattica per mostrare come un passaggio graduale dall'idea PCA all'idea di FA.
Bisogna fare attenzione quando si tracciano gli stessi caricamenti dei fattori biplot con punteggi dei fattori nello "spazio dei fattori", tenere presente che i caricamenti si riferiscono a fattori reali mentre i punteggi si riferiscono a fattori surrogati (vedere i miei commenti a questa risposta in questo thread).
La rotazione dei fattori (caricamenti) aiuta a interpretare le caratteristiche latenti. La rotazione dei caricamenti può essere eseguita anche in PCA se si utilizza PCA come se fosse un'analisi fattoriale (ovvero, vedere PCA come previsione variabile). PCA tende a convergere nei risultati con FA man mano che aumenta il numero di variabili (vedere il thread estremamente ricco su somiglianze pratiche e concettuali e differenze tra i due metodi). Vedi il mio elenco di differenze tra PCA e FA alla fine di questa risposta . I calcoli passo-passo di PCA vs FA sul set di dati dell'iride sono disponibili qui . Esiste un numero considerevole di buoni collegamenti alle risposte degli altri partecipanti sull'argomento al di fuori di questo thread; Mi dispiace di averne usati solo pochi nella risposta attuale.
Vedi anche un elenco puntato delle differenze tra PCA e FA qui .