La distinzione tra analisi dei componenti principali e analisi dei fattori è discussa in numerosi libri di testo e articoli sulle tecniche multivariate. È possibile trovare il thread completo e uno più recente , e risposte strane, anche su questo sito.
Non ho intenzione di renderlo dettagliato. Ho già dato una risposta concisa e a più lunga e vorrei ora chiarirla con un paio di foto.
Rappresentazione grafica
L'immagine seguente spiega PCA . (Questo è stato preso in prestito da qui in cui la PCA viene confrontata con la regressione lineare e le correlazioni canoniche. L'immagine è la rappresentazione vettoriale delle variabili nello spazio soggetto ; per capire di cosa si possa voler leggere lì il secondo paragrafo.)
La configurazione PCA su questa immagine è stata descritta lì . Ripeterò le cose principali. I componenti principali P1 e P2 trovano nello stesso spazio che è attraversato dalle variabili X1 e X2 , "piano X". La lunghezza quadrata di ciascuno dei quattro vettori è la sua varianza. La covarianza tra X1 e X2 è cov12=|X1||X2|r , dove r è uguale al coseno dell'angolo tra i loro vettori.
Le proiezioni (coordinate) delle variabili sui componenti, il a 's, sono i caricamenti dei componenti sulle variabili: i caricamenti sono i coefficienti di regressione nelle combinazioni lineari dellevariabilidi modellazioneper componenti standardizzati. "Standardizzato" - poiché le informazioni sulle varianze dei componenti sono già assorbite nei carichi (ricordare che i carichi sono autovettori normalizzati ai rispettivi autovalori). E a causa di ciò e del fatto che i componenti non sono correlati, i caricamentisono le covarianzetra le variabili e i componenti.
L'uso di PCA per finalità di dimensionalità / riduzione dei dati ci obbliga a conservare solo P1 e a considerare P2 come resto o errore. a211+a221=|P1|2 è la varianza catturata (spiegata) daP1 .
L'immagine seguente mostra l' analisi fattoriale eseguita sulle stesse variabili X1 e X2 con cui abbiamo fatto PCA sopra. (Parlerò di un modello di fattore comune , perché ne esistono altri: modello di fattore alfa, modello di fattore immagine.) Il sole sorridente aiuta con l'illuminazione.
Il fattore comune è F . È ciò che è analogo al componente principale P1 sopra. Riesci a vedere la differenza tra questi due? Sì, chiaramente: il fattore non sta nello spazio delle variabili "piano X" .
Come ottenere quel fattore con un dito, cioè fare l'analisi dei fattori? Proviamo. Nell'immagine precedente, agganciare l'estremità della freccia P1 con la punta del chiodo e allontanarsi dal "piano X", visualizzando contemporaneamente come appaiono due nuovi piani, "piano U1" e "piano U2"; questi collegano il vettore uncinato e i due vettori variabili. I due piani formano un cappuccio, X1 - F - X2, sopra il "piano X".
Continua a tirare mentre contempli il cofano e fermati quando "piano U1" e "piano U2" formano 90 gradi tra loro. Pronto, l'analisi dei fattori è fatta. Bene, sì, ma non ancora in modo ottimale. Per farlo bene, come fanno i pacchetti, ripeti l'intero esercizio di tirare la freccia, ora aggiungendo piccole oscillazioni da sinistra a destra del dito mentre tiri. In questo modo, trova la posizione della freccia quando la somma delle proiezioni quadrate di entrambe le variabili su di essa viene massimizzata , mentre raggiungi quell'angolo di 90 gradi. Fermare. Hai fatto l'analisi fattoriale, trovata la posizione del fattore comune F .
Ancora una volta, a differenza del componente principale P1 , il fattore F non appartiene allo spazio "piano X" delle variabili. Pertanto non è una funzione delle variabili (il componente principale è, e puoi assicurarti dalle due immagini in alto qui che PCA è fondamentalmente bidirezionale: predice le variabili per componenti e viceversa). L'analisi fattoriale non è quindi un metodo di descrizione / semplificazione, come la PCA, è un metodo di modellizzazione in base al quale steeres con fattore latente osservano le variabili, unidirezionalmente.
I caricamenti a 's del fattore sulle variabili sono come i caricamenti in PCA; sono le covarianze e sono i coefficienti di modellizzazione delle variabili per il fattore (standardizzato).a21+a22=|F|2 è la varianza catturata (spiegata) daF . Il fattore è stato trovato per massimizzare questa quantità - come se fosse un componente principale. Tuttavia, quella varianza spiegata non è più la varianza lorda delle variabili, ma è invece la loro varianza con cui essi variano (correlano). Perchè così?
Torna all'immagine. Abbiamo estratto F base a due requisiti. Uno era la somma massimizzata appena menzionata dei carichi quadrati. L'altro era la creazione dei due piani perpendicolari, "piano U1" contenente F e X1 e "piano U2" contenente F e X2 . In questo modo ciascuna delle variabili X appariva scomposta. . Gli U sono chiamati fattori unici . Ogni variabile ha il suo fattore unico. Il significato è il seguente. U 1 dietro X 1 e U 2X1 stato scomposto in variabiliF eU1 , reciprocamente ortogonali; Allo stesso modoX2 stato scomposto in variabiliF eU2 , anch'esse ortogonali. EU1 è ortogonale aU2 . Sappiamo cos'èF - ilfattore comune- il fattore comune - è la forza dietro sia X 1 che X 2UU1X1U2 dietro X2 sono le forze che impediscono a X1 e X2 di correlarsi. Ma FX1X2che li rende correlati. E la varianza spiegata risiede in quel fattore comune. Quindi, è pura varianza di collinearità. È quella varianza che rende cov12>0 ; il valore effettivo di cov12 è determinato dalle inclinazioni delle variabili verso il fattore, daa 's.
La varianza di una variabile (la lunghezza del vettore al quadrato) consiste quindi di due parti disgiunte additive: unicità u2 e comunanza a2 . Con due variabili, come il nostro esempio, possiamo estrarre al massimo un fattore comune, quindi comunalità = singolo caricamento al quadrato. Con molte variabili potremmo estrarre diversi fattori comuni e la comunalità di una variabile sarà la somma dei suoi caricamenti quadrati. Nella nostra immagine, lo spazio dei fattori comuni è unidimensionale (giustoF stessa); quandoesistonomfattori comuni, quello spazio èmtridimensionale, con le comunità che sono le proiezioni delle variabili sullo spazio e i carichi che sono variabili, così come le proiezioni di quelle proiezioni sui fattori che attraversano lo spazio. La varianza spiegata nell'analisi fattoriale è la varianza nello spazio di quei fattori comuni, diverso dallo spazio delle variabili in cui i componenti spiegano la varianza. Lo spazio delle variabili è nel ventre dello spazio combinato: m comune + p fattori unici.
Dai un'occhiata alla foto attuale, per favore. C'erano diverse variabili (diciamo, X1 , X2 , X3 ) con cui è stata fatta l'analisi dei fattori, estraendo due fattori comuni. I fattori F1 e F2 abbracciano lo spazio dei fattori comune "piano dei fattori". Del gruppo di variabili analizzate solo una ( X1 ) è mostrata nella figura. L'analisi lo ha decomposto in due parti ortogonali, la comunità C1 e il fattore unico U1 . La comunione sta nel "piano dei fattori" e le sue coordinate sui fattori sono i caricamenti con cui i fattori comuni caricano X1 (= coordinate di X1 stesso sui fattori). Nella foto, i comuni delle altre due variabili - proiezioni di X2sono anche mostrate le 2 e diX3 . Sarebbe interessante notare che i due fattori comuni possono, in un certo senso, essere visti come icomponenti principalidi tutte quelle"variabili"comuni. Mentre le componenti principali usuali riassumono per anzianità la varianza totale multivariata delle variabili, i fattori riassumono allo stesso modo la loro varianza comune multivariata.1
Perché aveva bisogno di tutta quella verbosità? Volevo solo provare l'affermazione che quando decomponi ciascuna delle variabili correlate in due parti latenti ortogonali, una (A) che rappresenta la non correlazione (ortogonalità) tra le variabili e l'altra parte (B) che rappresenta la loro correlazione (collinearità), e estraete i fattori dalle sole B combinate, vi ritroverete a spiegare le covarianze a coppie, mediante i caricamenti di quei fattori. Nel nostro modello fattoriale, cov12≈a1a2 -ripristina ifattoricovarianze individuali mediante caricamenti. Nel modello PCA, non è così poiché PCA spiega la varianza nativa collineare + ortogonale mista non composta. Entrambi i componenti forti che conservate e quelli successivi che rilasciate sono fusioni di parti (A) e (B); quindi l'APC può attingere, con i suoi caricamenti, alle covarianze solo alla cieca e grossolanamente.
Elenco di contrasto PCA vs FA
- PCA: opera nello spazio delle variabili. FA: trancsends lo spazio delle variabili.
- PCA: prende la variabilità così com'è. FA: segmenta la variabilità in parti comuni e uniche.
- PCA: spiega la varianza non segmentata, ovvero la traccia della matrice di covarianza. FA: spiega solo la varianza comune, quindi spiega (ripristina per caricamenti) correlazioni / covarianze, elementi off-diagonali della matrice. (La PCA spiega anche elementi off-diagonali - ma in modo sfuggente e disinvolto - semplicemente perché le varianze sono condivise in una forma di covarianze.)
- PCA: i componenti sono funzioni teoricamente lineari delle variabili, le variabili sono funzioni teoricamente lineari dei componenti. FA: le variabili sono solo funzioni teoricamente lineari di fattori.
- PCA: metodo riepilogativo empirico; essa conserva m componenti. FA: teorico metodo di modellazione ; si adatta al numero fisso m fattori ai dati; FA può essere testato (FA di conferma).
- PCA: è l'MDS metrico più semplice , mira a ridurre la dimensionalità preservando il più indirettamente le distanze tra i punti dati il più possibile. FA: I fattori sono tratti latenti essenziali dietro le variabili che li rendono correlati; l'analisi mira a ridurre i dati solo a quelle essenze.
- PCA: rotazione / interpretazione dei componenti - volte (il PCA non è abbastanza realistico come modello di tratti latenti). FA: rotazione / interpretazione dei fattori - di routine.
- PCA: solo metodo di riduzione dei dati. FA: anche un metodo per trovare cluster di variabili coerenti (questo perché le variabili non possono essere correlate oltre un fattore).
- PCA: caricamenti e punteggi sono indipendenti dal numero m di componenti "estratti". FA: caricamenti e punteggi dipendono dal numero m di fattori "estratti".
- PCA: i punteggi dei componenti sono valori esatti dei componenti. FA: i punteggi dei fattori sono approssimativi ai valori dei fattori reali ed esistono diversi metodi di calcolo . I punteggi dei fattori si trovano nello spazio delle variabili (come fanno i componenti) mentre i fattori reali (come incarnati dal caricamento dei fattori) no.
- PCA: di solito nessuna ipotesi. FA: assunzione di correlazioni parziali deboli; a volte ipotesi di normalità multivariata; alcuni set di dati potrebbero essere "errati" per l'analisi se non trasformati.
- PCA: algoritmo non ereditario; sempre successo. FA: algoritmo iterativo (in genere); a volte problema di non convergenza; la singolarità può essere un problema.
1 X2X3U1X1X1X2X3U1X1X2UU
Analogamente come nella regressione, i coefficienti sono le coordinate, sui predittori, sia delle variabili dipendenti che delle previsioni ( vedere l'immagine in "Regressione multipla", e anche qui ), in FA caricamenti sono le coordinate, sui fattori, sia di le variabili osservate e delle loro parti latenti - le comunità. Ed esattamente come nella regressione che il fatto non ha fatto che i dipendenti e i predittori siano sottospazi l'uno dell'altro, - in FA il fatto simile non rende le variabili osservate e il i fattori latenti sono gli spazi reciproci: un fattore è "estraneo" a una variabile in un senso abbastanza simile in quanto un predittore è "estraneo" a una risposta dipendente, ma in PCA è un altro modo:i componenti principali sono derivati dalle variabili osservate e sono confinati nel loro spazio.
Quindi, ancora una volta da ripetere: m i fattori comuni di FA non sono un sottospazio delle variabili di input p . Al contrario: le variabili formano un sottospazio nell'iperspazio dell'Unione m + p ( m fattori comuni + p fattori unici). Se visto da questa prospettiva (cioè anche con i fattori unici attratti), diventa chiaro che la FA classica non è una tecnica di riduzione della dimensionalità , come la classica PCA, ma una tecnica di espansione della dimensionalità . Tuttavia, prestiamo la nostra attenzione solo a una piccola parte ( comune di dimensioni m ) di quel gonfiamento, poiché questa parte spiega esclusivamente le correlazioni.