In che modo l'analisi fattoriale spiega la covarianza mentre la PCA spiega la varianza?


37

Ecco una citazione dal libro di "Pattern Recognition and Machine Learning" di Bishop, sezione 12.2.4 "Analisi dei fattori":

inserisci qui la descrizione dell'immagine

Secondo la parte evidenziata, l'analisi fattoriale cattura la covarianza tra variabili nella matrice W . Mi chiedo come ?

Ecco come lo capisco. Supponiamo che x sia la variabile p dimensionale osservata , W è la matrice di caricamento del fattore e z è il vettore del punteggio del fattore. Quindi abbiamo

x=μ+Wz+ϵ,
ovvero
(x1xp)=(μ1μp)+(||w1wm||)(z1zm)+ϵ,
e ogni colonna inWè un vettore di caricamento fattore
wi=(wi1wip).
Qui come ho scritto,Whamcolonne che significa che ci sonom fattori in esame.

Ora qui è il punto, secondo la parte evidenziata, credo che i carichi in ogni colonna wi spiegato la covarianza dei dati osservati, giusto?

Ad esempio, diamo un'occhiata al primo vettore di caricamento , per 1 i , j , kw1 , se w 1 i = 10 , w 1 j = 11 e w 1 k = 0.1 , allora direi x i e x j sono altamente correlati, mentre x k sembra non correlato con essi, vero?1i,j,kpw1i=10w1j=11w1k=0.1xixjxk

E se è così che l'analisi dei fattori spiega la covarianza tra le caratteristiche osservate, allora direi che PCA spiega anche la covarianza, giusto?


1
Dato che la trama di @ ttnphns si riferisce alla rappresentazione dello spazio soggetto , ecco un tutorial sullo spazio variabile e lo spazio soggetto: A proposito, non sapevo prima della trama dello spazio soggetto , ora lo capisco ed ecco un tutorial a riguardo: amstat.org/ pubblicazioni / jse / v10n1 / yu / biplot.html . ;-)
avocado,

1
Osserverei anche quello trama di caricamento che mostra i carichi è in realtà lo spazio soggetto. Mostrare spazi variabili e soggetti in uno è il biplot. Alcune immagini che lo dimostrano stats.stackexchange.com/a/50610/3277 .
ttnphns,

Ecco una domanda su ciò che è "varianza comune" e "varianza condivisa" terminologicamente: stats.stackexchange.com/q/208175/3277 .
ttnphns,

Risposte:


45

La distinzione tra analisi dei componenti principali e analisi dei fattori è discussa in numerosi libri di testo e articoli sulle tecniche multivariate. È possibile trovare il thread completo e uno più recente , e risposte strane, anche su questo sito.

Non ho intenzione di renderlo dettagliato. Ho già dato una risposta concisa e a più lunga e vorrei ora chiarirla con un paio di foto.

Rappresentazione grafica

L'immagine seguente spiega PCA . (Questo è stato preso in prestito da qui in cui la PCA viene confrontata con la regressione lineare e le correlazioni canoniche. L'immagine è la rappresentazione vettoriale delle variabili nello spazio soggetto ; per capire di cosa si possa voler leggere lì il secondo paragrafo.)

enter image description here

La configurazione PCA su questa immagine è stata descritta . Ripeterò le cose principali. I componenti principali P1 e P2 trovano nello stesso spazio che è attraversato dalle variabili X1 e X2 , "piano X". La lunghezza quadrata di ciascuno dei quattro vettori è la sua varianza. La covarianza tra X1 e X2 è cov12=|X1||X2|r , dove r è uguale al coseno dell'angolo tra i loro vettori.

Le proiezioni (coordinate) delle variabili sui componenti, il a 's, sono i caricamenti dei componenti sulle variabili: i caricamenti sono i coefficienti di regressione nelle combinazioni lineari dellevariabilidi modellazioneper componenti standardizzati. "Standardizzato" - poiché le informazioni sulle varianze dei componenti sono già assorbite nei carichi (ricordare che i carichi sono autovettori normalizzati ai rispettivi autovalori). E a causa di ciò e del fatto che i componenti non sono correlati, i caricamentisono le covarianzetra le variabili e i componenti.

L'uso di PCA per finalità di dimensionalità / riduzione dei dati ci obbliga a conservare solo P1 e a considerare P2 come resto o errore. a112+a212=|P1|2 è la varianza catturata (spiegata) daP1 .


L'immagine seguente mostra l' analisi fattoriale eseguita sulle stesse variabili X1 e X2 con cui abbiamo fatto PCA sopra. (Parlerò di un modello di fattore comune , perché ne esistono altri: modello di fattore alfa, modello di fattore immagine.) Il sole sorridente aiuta con l'illuminazione.

Il fattore comune è F . È ciò che è analogo al componente principale P1 sopra. Riesci a vedere la differenza tra questi due? Sì, chiaramente: il fattore non sta nello spazio delle variabili "piano X" .

Come ottenere quel fattore con un dito, cioè fare l'analisi dei fattori? Proviamo. Nell'immagine precedente, agganciare l'estremità della freccia P1 con la punta del chiodo e allontanarsi dal "piano X", visualizzando contemporaneamente come appaiono due nuovi piani, "piano U1" e "piano U2"; questi collegano il vettore uncinato e i due vettori variabili. I due piani formano un cappuccio, X1 - F - X2, sopra il "piano X".

enter image description here

Continua a tirare mentre contempli il cofano e fermati quando "piano U1" e "piano U2" formano 90 gradi tra loro. Pronto, l'analisi dei fattori è fatta. Bene, sì, ma non ancora in modo ottimale. Per farlo bene, come fanno i pacchetti, ripeti l'intero esercizio di tirare la freccia, ora aggiungendo piccole oscillazioni da sinistra a destra del dito mentre tiri. In questo modo, trova la posizione della freccia quando la somma delle proiezioni quadrate di entrambe le variabili su di essa viene massimizzata , mentre raggiungi quell'angolo di 90 gradi. Fermare. Hai fatto l'analisi fattoriale, trovata la posizione del fattore comune F .

Ancora una volta, a differenza del componente principale P1 , il fattore F non appartiene allo spazio "piano X" delle variabili. Pertanto non è una funzione delle variabili (il componente principale è, e puoi assicurarti dalle due immagini in alto qui che PCA è fondamentalmente bidirezionale: predice le variabili per componenti e viceversa). L'analisi fattoriale non è quindi un metodo di descrizione / semplificazione, come la PCA, è un metodo di modellizzazione in base al quale steeres con fattore latente osservano le variabili, unidirezionalmente.

I caricamenti a 's del fattore sulle variabili sono come i caricamenti in PCA; sono le covarianze e sono i coefficienti di modellizzazione delle variabili per il fattore (standardizzato).a12+a22=|F|2 è la varianza catturata (spiegata) daF . Il fattore è stato trovato per massimizzare questa quantità - come se fosse un componente principale. Tuttavia, quella varianza spiegata non è più la varianza lorda delle variabili, ma è invece la loro varianza con cui essi variano (correlano). Perchè così?

Torna all'immagine. Abbiamo estratto F base a due requisiti. Uno era la somma massimizzata appena menzionata dei carichi quadrati. L'altro era la creazione dei due piani perpendicolari, "piano U1" contenente F e X1 e "piano U2" contenente F e X2 . In questo modo ciascuna delle variabili X appariva scomposta. . Gli U sono chiamati fattori unici . Ogni variabile ha il suo fattore unico. Il significato è il seguente. U 1 dietro X 1 e U 2X1 stato scomposto in variabiliF eU1 , reciprocamente ortogonali; Allo stesso modoX2 stato scomposto in variabiliF eU2 , anch'esse ortogonali. EU1 è ortogonale aU2 . Sappiamo cos'èF - ilfattore comune- il fattore comune - è la forza dietro sia X 1 che X 2UU1X1U2 dietro X2 sono le forze che impediscono a X1 e X2 di correlarsi. Ma FX1X2che li rende correlati. E la varianza spiegata risiede in quel fattore comune. Quindi, è pura varianza di collinearità. È quella varianza che rende cov12>0 ; il valore effettivo di cov12 è determinato dalle inclinazioni delle variabili verso il fattore, daa 's.

La varianza di una variabile (la lunghezza del vettore al quadrato) consiste quindi di due parti disgiunte additive: unicità u2 e comunanza a2 . Con due variabili, come il nostro esempio, possiamo estrarre al massimo un fattore comune, quindi comunalità = singolo caricamento al quadrato. Con molte variabili potremmo estrarre diversi fattori comuni e la comunalità di una variabile sarà la somma dei suoi caricamenti quadrati. Nella nostra immagine, lo spazio dei fattori comuni è unidimensionale (giustoF stessa); quandoesistonomfattori comuni, quello spazio èmtridimensionale, con le comunità che sono le proiezioni delle variabili sullo spazio e i carichi che sono variabili, così come le proiezioni di quelle proiezioni sui fattori che attraversano lo spazio. La varianza spiegata nell'analisi fattoriale è la varianza nello spazio di quei fattori comuni, diverso dallo spazio delle variabili in cui i componenti spiegano la varianza. Lo spazio delle variabili è nel ventre dello spazio combinato: m comune + p fattori unici.

enter image description here

Dai un'occhiata alla foto attuale, per favore. C'erano diverse variabili (diciamo, X1 , X2 , X3 ) con cui è stata fatta l'analisi dei fattori, estraendo due fattori comuni. I fattori F1 e F2 abbracciano lo spazio dei fattori comune "piano dei fattori". Del gruppo di variabili analizzate solo una ( X1 ) è mostrata nella figura. L'analisi lo ha decomposto in due parti ortogonali, la comunità C1 e il fattore unico U1 . La comunione sta nel "piano dei fattori" e le sue coordinate sui fattori sono i caricamenti con cui i fattori comuni caricano X1 (= coordinate di X1 stesso sui fattori). Nella foto, i comuni delle altre due variabili - proiezioni di X2sono anche mostrate le 2 e diX3 . Sarebbe interessante notare che i due fattori comuni possono, in un certo senso, essere visti come icomponenti principalidi tutte quelle"variabili"comuni. Mentre le componenti principali usuali riassumono per anzianità la varianza totale multivariata delle variabili, i fattori riassumono allo stesso modo la loro varianza comune multivariata.1

Perché aveva bisogno di tutta quella verbosità? Volevo solo provare l'affermazione che quando decomponi ciascuna delle variabili correlate in due parti latenti ortogonali, una (A) che rappresenta la non correlazione (ortogonalità) tra le variabili e l'altra parte (B) che rappresenta la loro correlazione (collinearità), e estraete i fattori dalle sole B combinate, vi ritroverete a spiegare le covarianze a coppie, mediante i caricamenti di quei fattori. Nel nostro modello fattoriale, cov12a1a2 -ripristina ifattoricovarianze individuali mediante caricamenti. Nel modello PCA, non è così poiché PCA spiega la varianza nativa collineare + ortogonale mista non composta. Entrambi i componenti forti che conservate e quelli successivi che rilasciate sono fusioni di parti (A) e (B); quindi l'APC può attingere, con i suoi caricamenti, alle covarianze solo alla cieca e grossolanamente.


Elenco di contrasto PCA vs FA

  • PCA: opera nello spazio delle variabili. FA: trancsends lo spazio delle variabili.
  • PCA: prende la variabilità così com'è. FA: segmenta la variabilità in parti comuni e uniche.
  • PCA: spiega la varianza non segmentata, ovvero la traccia della matrice di covarianza. FA: spiega solo la varianza comune, quindi spiega (ripristina per caricamenti) correlazioni / covarianze, elementi off-diagonali della matrice. (La PCA spiega anche elementi off-diagonali - ma in modo sfuggente e disinvolto - semplicemente perché le varianze sono condivise in una forma di covarianze.)
  • PCA: i componenti sono funzioni teoricamente lineari delle variabili, le variabili sono funzioni teoricamente lineari dei componenti. FA: le variabili sono solo funzioni teoricamente lineari di fattori.
  • PCA: metodo riepilogativo empirico; essa conserva m componenti. FA: teorico metodo di modellazione ; si adatta al numero fisso m fattori ai dati; FA può essere testato (FA di conferma).
  • PCA: è l'MDS metrico più semplice , mira a ridurre la dimensionalità preservando il più indirettamente le distanze tra i punti dati il ​​più possibile. FA: I fattori sono tratti latenti essenziali dietro le variabili che li rendono correlati; l'analisi mira a ridurre i dati solo a quelle essenze.
  • PCA: rotazione / interpretazione dei componenti - volte (il PCA non è abbastanza realistico come modello di tratti latenti). FA: rotazione / interpretazione dei fattori - di routine.
  • PCA: solo metodo di riduzione dei dati. FA: anche un metodo per trovare cluster di variabili coerenti (questo perché le variabili non possono essere correlate oltre un fattore).
  • PCA: caricamenti e punteggi sono indipendenti dal numero m di componenti "estratti". FA: caricamenti e punteggi dipendono dal numero m di fattori "estratti".
  • PCA: i punteggi dei componenti sono valori esatti dei componenti. FA: i punteggi dei fattori sono approssimativi ai valori dei fattori reali ed esistono diversi metodi di calcolo . I punteggi dei fattori si trovano nello spazio delle variabili (come fanno i componenti) mentre i fattori reali (come incarnati dal caricamento dei fattori) no.
  • PCA: di solito nessuna ipotesi. FA: assunzione di correlazioni parziali deboli; a volte ipotesi di normalità multivariata; alcuni set di dati potrebbero essere "errati" per l'analisi se non trasformati.
  • PCA: algoritmo non ereditario; sempre successo. FA: algoritmo iterativo (in genere); a volte problema di non convergenza; la singolarità può essere un problema.

1 X2X3U1X1X1X2X3U1X1X2UU

Analogamente come nella regressione, i coefficienti sono le coordinate, sui predittori, sia delle variabili dipendenti che delle previsioni ( vedere l'immagine in "Regressione multipla", e anche qui ), in FA caricamenti sono le coordinate, sui fattori, sia di le variabili osservate e delle loro parti latenti - le comunità. Ed esattamente come nella regressione che il fatto non ha fatto che i dipendenti e i predittori siano sottospazi l'uno dell'altro, - in FA il fatto simile non rende le variabili osservate e il i fattori latenti sono gli spazi reciproci: un fattore è "estraneo" a una variabile in un senso abbastanza simile in quanto un predittore è "estraneo" a una risposta dipendente, ma in PCA è un altro modo:i componenti principali sono derivati ​​dalle variabili osservate e sono confinati nel loro spazio.

Quindi, ancora una volta da ripetere: m i fattori comuni di FA non sono un sottospazio delle variabili di input p . Al contrario: le variabili formano un sottospazio nell'iperspazio dell'Unione m + p ( m fattori comuni + p fattori unici). Se visto da questa prospettiva (cioè anche con i fattori unici attratti), diventa chiaro che la FA classica non è una tecnica di riduzione della dimensionalità , come la classica PCA, ma una tecnica di espansione della dimensionalità . Tuttavia, prestiamo la nostra attenzione solo a una piccola parte ( comune di dimensioni m ) di quel gonfiamento, poiché questa parte spiega esclusivamente le correlazioni.


Grazie e bella trama. La tua risposta ( stats.stackexchange.com/a/94104/30540 ) aiuta molto.
avocado,

2
(+11) Ottima risposta e belle illustrazioni! (Devo aspettare altri due giorni prima di offrire la generosità.)
chl

@chl, sono così commosso.
ttnphns,

@ttnphns: lo "spazio soggetto" (il tuo piano X) è uno spazio con tante coordinate quanti sono i punti dati nel set di dati, giusto? Quindi se un set di dati (con due variabili X1 e X2) ha 100 punti dati, allora il tuo piano X è tridimensionale? Ma allora come può il fattore F trovarsi al di fuori di esso? Tutti i 100 punti dati non dovrebbero avere alcuni valori lungo il fattore? E poiché non ci sono altri punti dati, sembrerebbe che il fattore F debba trovarsi nello stesso "spazio soggetto" tridimensionale, cioè nel piano X? Cosa mi sto perdendo?
ameba dice Reinstate Monica il

1
@amoeba, la tua domanda è legittima e sì, ti manca qualcosa. Vedi il primo paragrafo: stats.stackexchange.com/a/51471/3277 . Le dimensioni ridondanti vengono eliminate. Lo spazio soggetto ha tutte le dimensioni effettive, non ridondanti, dello spazio variabile corrispondente. Quindi "spazio X" è piano. Se aggiungiamo +1 dimensione (per coprire F), l'intera configurazione sarà singolare, irrisolvibile. F si estende sempre dallo spazio variabile.
ttnphns,

10

"Spiegare la covarianza" vs. spiegare la varianza

p(x|z)=N(x|Wz+μ,Ψ)
x
C=WW+Ψ.
ΣC
ΣWW+Ψ.
CΣΨWΣ

ΣΣ

W~Σm<k

ΣW~W~,
il che significa che i caricamenti di PCA provano a riprodurre l'intera matrice di covarianza (e non solo la sua parte off-diagonale come FA). Questa è la differenza principale tra PCA e FA.

Ulteriori commenti

2×2 , ha solo un elemento off-diagonale e quindi un fattore è sempre sufficiente per riprodurlo al 100% (mentre il PCA avrebbe bisogno di due componenti). Tuttavia, in generale, se ci sono molte variabili (diciamo, una dozzina o più), né PCA né FA con un piccolo numero di componenti saranno in grado di riprodurre completamente la matrice di covarianza; inoltre, di solito (anche se non necessariamente!) producono risultati simili. Vedi la mia risposta qui per alcune simulazioni a supporto di questa affermazione e per ulteriori spiegazioni:

Quindi, anche se i disegni di @ttnphns possono dare l'impressione che PCA e FA siano molto diversi, la mia opinione è che non è così, tranne che con pochissime variabili o in alcune altre situazioni speciali.

Guarda anche:

Finalmente:

w11i,j,kpw1i=10w1j=11w1k=0.1xixjxk

xixjw2xixk


Riconoscendo la tua competenza algebrica e certamente salutando la tua risposta, non sarei comunque così acuto da etichettare la precedente risposta geometrica di qualcuno (la mia in questo caso) come "potenzialmente fuorviante". Le parole so hugely differentsono tue, non mie. In secondo luogo, it is in fact not the case, except with very few variablesè di per sé una rivelazione che deve essere testata più a fondo di una volta.
ttnphns,

Ciao @ttnphns, grazie per il commento. Non ho assolutamente nulla contro le risposte geometriche, e in effetti le preferisco quando possibile! Sinceramente mi piace molto la tua risposta e ha il mio +1. Ma penso che considerare solo un caso con due variabili faccia apparire le differenze PCA-vs-FA più forti di quanto non lo siano altrimenti e che ciò può essere potenzialmente (!) Fuorviante. Tuttavia, hai ragione nel dire che non avrei dovuto usare parole del genere nella mia risposta. Mi scuso e l'ho modificato in questo momento. Giusto per essere completamente chiari: qualsiasi ostilità (se ne sentivi!) Era puramente involontaria.
ameba dice di reintegrare Monica il

@amoeba Perché alcune persone dicono che la FA preserva la covarianza e la PCA preserva la varianza. Dal tuo post, capisco che in effetti la FA preserva la covarianza, ma la PA cerca di preservare la varianza e la covarianza . Dire che PCA preserva la varianza deriva dalla sua funzione oggettiva e non dalle spiegazioni nel tuo post?
user_anon,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.