Che cosa massimizzano i primi fattori


12

Nell'analisi dei componenti principali, i primi componenti principali sono le direzioni ortogonali con la varianza massima. In altre parole, il primo componente principale viene scelto per essere la direzione della varianza massima, il secondo componente principale viene scelto per essere la direzione ortogonale alla prima con la varianza massima e così via.kkk

Esiste un'interpretazione simile per l'analisi fattoriale? Ad esempio, sto pensando che i primi fattori sono i fattori che spiegano meglio le componenti off-diagonali della matrice di correlazione originale (nel senso, diciamo, di un errore quadrato tra la matrice di correlazione originale e la matrice di correlazione definita dal fattori). È vero (o c'è qualcosa di simile che possiamo dire)?k


Mentre sono d'accordo con quasi tutto ciò che @NRH ha scritto nella loro risposta (+1), la risposta breve alla tua ultima domanda è che sì, è esattamente vero . Si noti che in FA i fattori possono anche essere scelti come ortogonali, come in PCA. La differenza sta solo nel riprodurre l'intera matrice di correlazione (PCA) rispetto alla riproduzione solo della sua parte off-diagonale (FA). Per discussioni più lunghe, vedi le mie risposte in Condizioni di somiglianza di PCA e Analisi fattoriale e c'è qualche buona ragione per usare PCA invece di EFA?
ameba dice di reintegrare Monica il

Non sono sicuro che la FA "minimizzi le covarianze parziali (somma-) quadrate", perché esiste un criterio di rotazione / estrazione chiamato "MinRes" la cui logica è esattamente questa. Allora perché dargli un nome distintivo? Forse le routine standard per trovare matematicamente la soluzione FA ottengono risultati identici se il numero di fattori k riproduce perfettamente le covarianze, ma poiché k è una stima, potrebbe essere che in caso di imperfezione / sottovalutazione la soluzione FA non lo sia identico alla soluzione MinRes. Bene, dico: potrebbe essere - mi piacerebbe vedere una dichiarazione esplicita.
Gottfried Helms

Risposte:


7

La PCA è principalmente una tecnica di riduzione dei dati in cui l'obiettivo è ottenere una proiezione dei dati su uno spazio dimensionale inferiore. Due obiettivi equivalenti sono massimizzare iterativamente la varianza o minimizzare l'errore di ricostruzione. Questo è in realtà risolto in alcuni dettagli nelle risposte a questa domanda precedente .

Al contrario, l'analisi fattoriale è soprattutto un modello generativo di un -dimensionale di dati vettoriali X dicendo che X = A S + ε dove S è il q dimensionale vettore di fattori latenti, A è p × k con k < p ed ε è un vettore di errori non correlati. La matrice A è la matrice dei caricamenti dei fattori . Ciò produce una parametrizzazione speciale della matrice di covarianza come Σ = A A T + DpX

X=AS+ϵ
SqAp×kk<pϵA
Σ=AAT+D
Il problema con questo modello è che è sovra-parametrizzato. Lo stesso modello si ottiene se viene sostituito da A R per qualsiasi matrice ortogonale k × k R , il che significa che i fattori stessi non sono unici. Esistono varie proposte per risolvere questo problema, ma c'è non è una soluzione unica che consente di fattori con il tipo di interpretazione che chiedete. Una scelta popolare è la rotazione varimax . Tuttavia, il criterio utilizzato determina solo la rotazione. Lo spazio di colonna espanso da A non cambia e, poiché fa parte della parametrizzazione, viene determinato con qualsiasi metodo utilizzato per stimare ΣAARk×kRAΣ - con la massima probabilità in un modello gaussiano, diciamo.

Quindi, per rispondere alla domanda, i fattori scelti non vengono dati automaticamente dall'uso di un modello di analisi dei fattori, quindi non esiste una singola interpretazione dei primi fattori . Devi specificare il metodo utilizzato per stimare (lo spazio di colonna di) A e il metodo utilizzato per scegliere la rotazione. Se D = σ 2 I (tutti gli errori hanno la stessa varianza), la soluzione MLE per lo spazio colonna di A è lo spazio attraversato dai vettori dei componenti principali q principali, che può essere trovato da una decomposizione di valore singolare. È ovviamente possibile scegliere di non ruotare e riportare questi vettori componenti principali come fattori. kAD=σ2IAq

kkk


1
Sì, capisco che non esiste una scelta unica di fattori k (dal momento che possiamo ruotarli e ottenere lo stesso modello). Ma qualche scelta di k fattori selezionati dall'analisi fattoriale fa una sorta di "massima spiegazione della correlazione"?
Raegtin,

1
@raegtin, ho modificato la risposta per spiegare il mio punto di vista, che questo è un modello della matrice di covarianza. Qualsiasi scelta dei fattori ottenuti dalle rotazioni è, a mio modo di vedere, ugualmente buona o cattiva nel spiegare le covarianze nei dati poiché producono la stessa matrice di covarianza.
NRH,

1
Grazie per l'aggiornamento, questa è un'ottima spiegazione di FA! Quindi quando dici "l'obiettivo del modello è spiegare meglio la covarianza", vuoi dire che i fattori k massimizzano davvero la quantità di covarianza spiegata?
Raegtin,

1
@raegtin, sì, vedo il modello come un modello della matrice di covarianza e, quando si valuta il modello, è corretto affermare che si sta massimizzando la quantità di covarianza spiegata.
NRH,

@raegtin e NRH (+1 btw): solo per chiarire. Sopra due commenti sono corretti se per "covarianza" comprendiamo la "parte off-diagonale della matrice di covarianza".
ameba dice di reintegrare Monica il

3

@RAEGTIN, credo che tu pensi bene. Dopo l'estrazione e la rotazione precedente, ogni fattore successivo rappresenta sempre meno la covariazione / correlazione, proprio come ogni componente successivo rappresenta sempre meno la varianza: in entrambi i casi, le colonne di una matrice di caricamento A vanno nell'ordine di caduta di somma di elementi quadrati (caricamenti) in essi. Il caricamento è fattore di correlazione bw e variabile; pertanto si può dire che il 1o fattore spiega la porzione maggiore di r "globale" al quadrato nella matrice R , il 2o fattore è il secondo qui, ecc. La differenza tra FA e PCA, tuttavia, nel prevedere le correlazioni per i carichi è la seguente: FA è "calibrato" per ripristinare Rabbastanza finemente con solo m fattori estratti (fattori m <variabili p), mentre PCA è scortese nel ripristinarlo da componenti m, - ha bisogno di tutti i componenti p per ripristinare R senza errori.

PS Solo per aggiungere. In FA, un valore di caricamento "consiste" di una comunanza pulita (una parte della varianza responsabile della correlazione) mentre in PCA un caricamento è una miscela di comunanza e unicità della variabile e quindi afferra la variabilità.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.