C'è qualche buona ragione per usare PCA invece di EFA? Inoltre, PCA può essere un sostituto dell'analisi fattoriale?


73

In alcune discipline, PCA (analisi dei componenti principali) viene sistematicamente utilizzato senza alcuna giustificazione e PCA ed EFA (analisi dei fattori esplorativi) sono considerati sinonimi.

Di recente ho quindi utilizzato PCA per analizzare i risultati di uno studio di validazione della scala (21 articoli su scala Likert a 7 punti, ipotizzato di comporre 3 fattori di 7 elementi ciascuno) e un revisore mi chiede perché ho scelto PCA anziché EFA. Ho letto delle differenze tra le due tecniche e sembra che EFA sia favorito contro PCA nella maggior parte delle tue risposte qui.

Hai qualche buon motivo per cui PCA sarebbe una scelta migliore? Quali benefici potrebbe offrire e perché potrebbe essere una scelta saggia nel mio caso?


1
Ottima domanda Tendo a non essere d'accordo con la risposta di ttnphns e cercherò di fornire una visione alternativa più avanti oggi.
ameba dice di reintegrare Monica il

5
@amoeba Sto facendo il tifo per te in anticipo. PCA è solo una tecnica di trasformazione che può essere (a volte, molto) utile. Non è necessario demonizzarlo o attribuirgli un'intenzione spuria o inappropriata. Potresti anche escoriare un logaritmo.
Nick Cox,

4
Non sembra che la risposta di ttnphns demonizzi PCA. Per me sembra solo sostenere che il PCA non si basa sull'assunzione di variabili latenti che generano i tuoi dati, quindi se è quello che stai cercando di fare, FA è una scelta migliore.
gung - Ripristina Monica

1
FWIW, non stavo commentando specificamente la risposta di ttphns, ma su commenti e critiche mi capita spesso di imbattersi in accuse che PCA non fa qualcosa per cui non è mai stato previsto o non è adatto.
Nick Cox,

3
@NeilG: PCA non è un modello generativo [probabilistico], perché non include un termine di rumore e quindi non vi è alcuna probabilità associata ad esso. C'è una generalizzazione probabilistica (PPCA), ed è strettamente correlata alla PCA, vedi la mia risposta qui.
ameba dice di reintegrare Monica il

Risposte:


95

Disclaimer: @ttnphns è molto ben informato sia su PCA che su FA, e rispetto la sua opinione e ho imparato molto da molte delle sue grandi risposte sull'argomento. Tuttavia, tendo a non essere d'accordo con la sua risposta qui, così come con altri (numerosi) post su questo argomento qui su CV, non solo suoi; o meglio, penso che abbiano un'applicabilità limitata.


Penso che la differenza tra PCA e FA sia sopravvalutata.

Guardalo così: entrambi i metodi tentano di fornire un'approssimazione di basso rango di una data matrice di covarianza (o correlazione). "Rango basso" significa che viene utilizzato solo un numero limitato (basso) di fattori latenti o componenti principali. Se la matrice di covarianza dei dati è , i modelli sono:Cn×nC

PCA:CWWPPCA:CWW+σ2IFA:CWW+Ψ

Qui è una matrice con colonne (dove di solito si sceglie come piccolo numero, ), che rappresenta componenti o fattori principali, è una matrice di identità e è una diagonale matrice. Ogni metodo può essere formulato come trovare (e il resto) minimizzando la [norma della] differenza tra il lato sinistro e il lato destro. k k k < n k I Ψ WWkkk<nkIΨW

PPCA sta per PCA probabilistico e, se non sai di cosa si tratta, non ha molta importanza per ora. Volevo menzionarlo, perché si adatta perfettamente tra PCA e FA, avendo una complessità del modello intermedia. Mette anche in prospettiva la presunta grande differenza tra PCA e FA: anche se è un modello probabilistico (esattamente come FA), in realtà risulta quasi equivalente a PCA ( copre lo stesso sottospazio).W

Ancora più importante, si noti che i modelli si differenziano solo per come trattano la diagonale di . All'aumentare della dimensionalità , la diagonale diventa in un modo sempre meno importante (perché ci sono solo elementi sulla diagonale e elementi fuori dalla diagonale). Di conseguenza, per la grande di solito non c'è alcuna differenza tra PCA e FA, un'osservazione che è raramente apprezzata. Per i piccoli possono davvero differire molto. n n n ( n - 1 ) / 2 = O ( n 2 ) n nCnnn(n1)/2=O(n2)nn

Ora, per rispondere alla tua domanda principale sul perché le persone in alcune discipline sembrano preferire la PCA. Immagino che si riduce al fatto che è matematicamente molto più facile di FA (questo non è ovvio dalle formule di cui sopra, quindi devi credermi qui):

  1. PCA - così come PPCA, che è solo leggermente diverso, - ha una soluzione analitica, mentre FA no. Quindi la FA deve essere numericamente in forma, esistono vari algoritmi per farlo, dando risposte probabilmente diverse e operando con ipotesi diverse, ecc. Ecc. In alcuni casi alcuni algoritmi possono rimanere bloccati (vedi ad esempio "casi di heywood"). Per PCA esegui una decomposizione di autovena e il gioco è fatto; FA è molto più disordinato.

    Tecnicamente, PCA ruota semplicemente le variabili, ed è per questo che ci si può riferire ad essa come una semplice trasformazione, come ha fatto @NickCox nel suo commento sopra.

  2. La soluzione PCA non dipende da : puoi trovare i primi tre PC ( ) e i primi due saranno identici a quelli che avresti trovato se avessi inizialmente impostato . Questo non è vero per FA: la soluzione per non è necessariamente contenuta nella soluzione per . Questo è contro-intuitivo e confuso.k = 3 k = 2 k = 2 k = 3kk=3k=2k=2k=3

Naturalmente FA è un modello più flessibile di PCA (dopo tutto, ha più parametri) e spesso può essere più utile. Non sto discutendo contro questo. Ciò su cui sto discutendo è l'affermazione che sono concettualmente molto diversi con PCA che parla di "descrizione dei dati" e FA di "ricerca di variabili latenti". Non vedo che questo è vero [quasi].

Per commentare alcuni punti specifici sopra menzionati e nelle risposte collegate:

  • "in PCA il numero di dimensioni da estrarre / conservare è fondamentalmente soggettivo, mentre in EFA il numero è fisso e di solito devi controllare diverse soluzioni" - beh, la scelta della soluzione è ancora soggettiva, quindi non vedere qui eventuali differenze concettuali. In entrambi i casi, viene scelto (soggettivamente o obiettivamente) per ottimizzare il compromesso tra adattamento del modello e complessità del modello.k

  • "L'AF è in grado di spiegare le correlazioni a coppie (covarianze). L'APC generalmente non può farlo" - non proprio, entrambi spiegano meglio le correlazioni man mano che cresce.k

  • A volte sorge ulteriore confusione (ma non nelle risposte di @ttnphns!) A causa delle diverse pratiche nelle discipline che utilizzano PCA e FA. Ad esempio, è pratica comune ruotare i fattori in FA per migliorare l'interpretazione. Ciò avviene raramente dopo la PCA, ma in linea di principio nulla lo impedisce. Quindi la gente tende spesso a pensare che la FA ti dia qualcosa di "interpretabile" e PCA no, ma questa è spesso un'illusione.

Infine, vorrei sottolineare ancora una volta che per molto piccolo le differenze tra PCA e FA possono essere davvero grande, e forse alcune delle affermazioni a favore della FA è fatto con piccoli in mente. Come esempio estremo, per un singolo fattore può sempre spiegare perfettamente la correlazione, ma un PC può non riuscire a farlo abbastanza male.n n = 2nnn=2


Aggiornamento 1: modelli generativi dei dati

Dal numero di commenti si può vedere che ciò che sto dicendo è considerato controverso. A rischio di inondare ulteriormente la sezione dei commenti, ecco alcune osservazioni relative ai "modelli" (vedi commenti di @ttnphns e @gung). A @ttnphns non piace che abbia usato la parola "modello" [della matrice di covarianza] per riferirsi alle approssimazioni sopra; è una questione di terminologia, ma quelli che chiama "modelli" sono modelli probabilistici / generativi dei dati :

PPCA:x=Wz+μ+ϵ,ϵN(0,σ2I)FA:x=Wz+μ+ϵ,ϵN(0,Ψ)

Si noti che la PCA non è un modello probabilistico e non può essere formulata in questo modo.

La differenza tra PPCA e FA è nel termine rumore: PPCA assume la stessa varianza di rumore per ogni variabile, mentre FA assume varianze diverse ("unicità"). Questa piccola differenza ha conseguenze importanti. Entrambi i modelli possono adattarsi a un algoritmo di massimizzazione delle aspettative generale. Per FA non è nota alcuna soluzione analitica, ma per PPCA si può ricavare analiticamente la soluzione a cui convergeranno EM (sia che ). Si scopre che ha colonne nella stessa direzione ma con una lunghezza inferiore rispetto ai standard di PCA ( le formule esatte). Per questa ragione penso al PPCA come "quasi" PCA:Ψ i i σ 2 W W P P C A W P C A Wσ2Ψiiσ2WWPPCAWPCAW in entrambi i casi abbraccia lo stesso "sottospazio principale".

La prova ( Tipping and Bishop 1999 ) è un po 'tecnica; la ragione intuitiva per cui la varianza del rumore omogenea porta a una soluzione molto più semplice è che gli stessi autovettori di per qualsiasi valore di , ma questo non è vero per .C σ 2 C - ΨCσ2ICσ2CΨ

Quindi sì, @gung e @ttnphns hanno ragione in quanto FA si basa su un modello generativo e PCA no, ma penso sia importante aggiungere che anche PPCA si basa su un modello generativo, ma è "quasi" equivalente a PCA . Quindi cessa di sembrare una differenza così importante.


Aggiornamento 2: come mai PCA fornisce la migliore approssimazione alla matrice di covarianza, quando è noto che cerca la varianza massima?

PCA ha due formulazioni equivalenti: ad esempio il primo PC è (a) quello che massimizza la varianza della proiezione e (b) quello che fornisce un errore minimo di ricostruzione. Più astrattamente, l'equivalenza tra massimizzare la varianza e minimizzare l'errore di ricostruzione può essere vista usando il teorema di Eckart-Young .

Se è la matrice di dati (con osservazioni come righe, variabili come colonne e colonne sono considerate centrate) e la sua scomposizione SVD è , quindi è noto che le colonne di sono autovettori della matrice scatter (o matrice di covarianza, se divisa per il numero di osservazioni) e quindi sono assi che massimizzano la varianza (cioè assi principali). Ma secondo il teorema di Eckart-Young, i primi PC forniscono la migliore approssimazione di grado a :X = U S VV C = XX = V S 2 V k k X X k = U k S k V k k X - X k 2XX=USVVC=XX=VS2VkkXXk=UkSkVk(questa notazione significa prendere solo valori / vettori singolari più grandi) minimizza .kXXk2

I primi PG forniscono non solo il meglio di ranghi approssimazione , ma anche alla matrice di covarianza . Infatti, , e l'ultima equazione fornisce la decomposizione SVD di (perché è ortogonale e è diagonale). Quindi il teorema di Eckert-Young ci dice che la migliore approssimazione di grado a è data da . Questo può essere trasformato notandolok X C C = XX = V S 2 VC V S 2kkXCC=XX=VS2VCVS2C C k = V k S 2 k V k W = V S C k = V k S 2 k V k = ( V S ) k ( V S ) k = WkCCk=VkSk2VkW=VS sono caricamenti di PCA, quindi

Ck=VkSk2Vk=(VS)k(VS)k=WkWk.

La linea di fondo qui è che come indicato all'inizio.

minimizing{CWW2CWWσ2I2CWWΨ2}leadsto{PCAPPCAFA}loadings,

Aggiornamento 3: dimostrazione numerica che da PCA FA quandon n

Sono stato incoraggiato da @ttnphns a fornire una dimostrazione numerica della mia affermazione secondo cui con l'aumentare della dimensionalità, la soluzione PCA si avvicina alla soluzione FA. Eccolo.

Ho generato una matrice di correlazione casuale con alcune forti correlazioni off-diagonali. Ho quindi preso il blocco quadrato alto a sinistra di questa matrice con variabili per studiare l'effetto della dimensionalità. Per ogni , ho eseguito PCA e FA con il numero di componenti / fattori e per ogni ho calcolato l'errore di ricostruzione off-diagonale (nota che sulla diagonale, FA ricostruisce perfettamente , grazie aln × n C n = 25 , 50 , 200 n k = 1 5 k i j [ C - W W] 2 i j200×200 n×nCn=25,50,200nk=15k

ij[CWW]ij2
Ψ n k 1CΨtermine, mentre PCA no; ma la diagonale viene ignorata qui). Allora per ogni e , ho calcolato il rapporto dell'errore off-diagonale PCA all'errore FA off-diagonale. Questo rapporto deve essere superiore a , perché la FA offre la migliore ricostruzione possibile.nk1

Errore di ricostruzione off diagonale PCA vs FA

A destra, diverse linee corrispondono a diversi valori di e è mostrato sull'asse orizzontale. Si noti che man mano che cresce, i rapporti (per tutto ) si avvicinano a , il che significa che PCA e FA producono approssimativamente gli stessi carichi, PCA FA. Con relativamente piccolo , ad es. Quando , il PCA ha prestazioni [prevedibilmente] peggiori, ma la differenza non è così forte per il piccolo e anche per il rapporto è inferiore a .n n k 1 n n = 25 k k = 5 1.2knnk1nn=25kk=51.2

Il rapporto può diventare grande quando il numero di fattori diventa comparabile con il numero di variabili . Nell'esempio che ho dato sopra con e , FA raggiunge errore di ricostruzione, mentre PCA no, ovvero il rapporto sarebbe infinito. Ma tornando alla domanda iniziale, quando e , PCA sarà solo moderatamente perdere contro FA per spiegare la parte off-diagonale di .knn=2k=10n=21k=3C

Per un esempio illustrato di PCA e FA applicato a un set di dati reale (set di dati wine con ), vedere le mie risposte qui:n=13


2
Stavo per fare una domanda sulla differenza matematica tra le tecniche, dal momento che la maggior parte delle risposte (altrimenti eccellenti) sull'argomento qui non fa confronti matematici espliciti. Questa risposta è esattamente quello che stavo cercando.
Shadowtalker

2
Questo è un account di grande valore, spiegato con una nuova prospettiva. L'inserimento del PPCA come tecnica intermedia è cruciale: è da dove cresce la tua opinione. Posso chiederti di lasciare più righe su PPCA? - Che cos'è , come viene stimato (brevemente) e cosa lo differenzia da modo che i PPC (diversamente dai fattori) riempiano il sottospazio delle variabili e un PPC non dipende da . σ2Ψk
ttnphns,

3
Continuo ad essere d'accordo con w / ttnphns qui, e la distinzione che FA si basa su variabili latenti mentre PCA è solo una trasformazione dei dati. Tuttavia, questo è molto ben ragionato e un'utile posizione contraria. Contribuisce alla qualità di questo thread. +1
gung - Ripristina Monica

5
@amoeba LA TUA RISPOSTA È GRANDE. È così chiaro e gratificante. Grazie per aver condiviso la tua visione.
Subhash C. Davar,

2
@ user795305 Mi scuso, ho dimenticato di rispondere. Il modello FA scritto nell'aggiornamento 1 è corretto. Si suppone che lo latente da e indipendente da . La soluzione ML per e NON sta minimizzando la norma di come ho scritto nell'aggiornamento 2; era sciatto e scorretto. Dovrei sistemarlo, grazie. Tuttavia, penso che sia giusto dire che la soluzione ML è tale che ; è solo che la funzione di perdita qui non è la norma della differenza ma un'espressione più complicata (probabilità di dato ). N ( 0 , I ) ϵ W Ψ C - W W - Ψ C W W + Ψ C W W + ΨzN(0,I)ϵWΨCWWΨCWW+ΨCWW+Ψ
L'ameba dice di reintegrare Monica

27

Come hai detto, hai familiarità con le risposte pertinenti ; vedi anche : So, as long as "Factor analysis..."+ un paio di ultimi paragrafi; e l'elenco in basso qui . In breve, PCA è principalmente una tecnica di riduzione dei dati mentre FA è una tecnica di modellazione dei tratti latenti. A volte capita di dare risultati simili; ma nel tuo caso - perché probabilmente hai voglia di costruire / validare tratti latenti come se fossero entità reali - usare FA sarebbe più onesto e non dovresti preferire PCA nella speranza che i loro risultati convergano. D'altra parte, ogni volta che miri a sintetizzare / semplificare i dati, ad esempio per successive analisi, preferiresti la PCA, poiché non impone alcun modello forte (che potrebbe essere irrilevante) sui dati.

Per ribadire in altro modo, PCA ti dà dimensioni che possono corrispondere ad alcuni costrutti soggettivamente significativi , se lo desideri, mentre EFA afferma che quelle sono persino funzioni segrete che hanno effettivamente generato i tuoi dati e mira a trovare quelle caratteristiche. In FA, l'interpretazione delle dimensioni (fattori) è in sospeso: indipendentemente dal fatto che sia possibile associare un significato a una variabile latente, essa "esiste" (la FA è essenziale), altrimenti è necessario eliminarla dal modello o ottenere più dati da supportare esso. In PCA, il significato di una dimensione è facoltativo.

E ancora una volta, in altre parole: quando si estraggono m fattori ( fattori separati da errori), questi pochi fattori spiegano (quasi) tutta la correlazione tra le variabili, in modo che le variabili non vengano lasciate spazio per correlare comunque tramite gli errori. Pertanto, fintanto che i "fattori" sono definiti come tratti latenti che generano / legano i dati correlati, si hanno indizi completi per interpretarli: ciò che è responsabile delle correlazioni. In PCA (estrarre componenti come se "fattori"), gli errori (possono) sono ancora correlati tra le variabili; quindi non puoi affermare di aver estratto qualcosa di abbastanza pulito ed esauriente da interpretare in quel modo.

Potresti voler leggere la mia altra, risposta più lunga nella discussione attuale, per alcuni dettagli dell'esperimento teorico e di simulazione sul fatto che PCA sia un sostituto praticabile di FA. Si prega di prestare attenzione anche alle risposte eccezionali di @amoeba fornite su questa discussione.


Aggiornamento : Nella loro risposta a questa domanda @amoeba, che si è opposto lì, ha introdotto una (non nota) tecnica PPCA a metà strada tra PCA e FA. Ciò ha naturalmente lanciato la logica secondo cui PCA e FA si trovano su una linea anziché sul contrario. Questo prezioso approccio espande i propri orizzonti teorici. Ma può mascherare l'importante differenza pratica riguardo al fatto che l'AF ricostruisce (spiega) tutte le covarianze a coppie con alcuni fattori, mentre l'APC non può farlo con successo (e quando lo fa occasionalmente - è perché è successo a mimare l'AF).


Grazie per la tua risposta! I risultati di FA in realtà convergono principalmente con quello ottenuto tramite PCA. L'unica cosa è: gli autori dello studio iniziale (il mio è una traduzione + validazione) hanno usato un'analisi PCA. Questo è sufficiente per mantenere l'analisi della PCA nel mio documento e forse aggiungere una frase che spieghi che i risultati della FA convergono, o dovrei sostituire la PCA con la FA? Si noti che il revisore in realtà non ci chiede esplicitamente di farlo, sta solo chiedendo di giustificare il motivo per cui abbiamo scelto un PCA invece di FA.
Carine,

Penso: se gli autori hanno usato PCA ma un approccio più rigoroso / onesto richiede EFA nel loro caso, dovresti abbandonare una linea di critica e quindi eseguire PCA o entrambi PCA ed EFA, per confrontare i risultati.
ttnphns,

2
Nota anche la differenza che in PCA il numero di dimensioni da estrarre / conservare è fondamentalmente soggettivo, mentre in EFA il numero è fisso e di solito devi controllare diverse soluzioni, ad esempio da 3 a 5 fattori, per il grado di come riprodurre la matrice di correlazione e quanto bene sono interpretabili. La FA è più noiosa, ecco perché le persone spesso preferiscono fare la PCA nei casi in cui un approccio coscienzioso chiama per provare un numero di passaggi EFA.
ttnphns,

Vedi anche la voce di Wikipedia: en.wikipedia.org/wiki/…
RobertF

15

In questo la mia risposta (un secondo e supplementare per l'altro mio qui) cercherò di mostrare in immagini che PCA non ripristina una covarianza qualsiasi bene (considerando che ripristina - massimizza - varianza in modo ottimale).

Come in alcune delle mie risposte su PCA o analisi fattoriale, passerò alla rappresentazione vettoriale delle variabili nello spazio soggetto . In questo caso non è che un grafico di caricamento che mostra le variabili e i relativi caricamenti dei componenti. Quindi abbiamo ottenuto e le variabili (ne avevamo solo due nel set di dati), loro primo componente principale, con i caricamenti e . Anche l'angolo tra le variabili è segnato. Le variabili erano centrate in via preliminare, quindi le loro lunghezze al quadrato, e sono le loro rispettive varianze.X 2 F a 1 a 2 h 2 1 h 2 2X1X2Fa1a2h12h22

inserisci qui la descrizione dell'immagine

La covarianza tra e è - è il loro prodotto scalare - (questo coseno è il valore di correlazione, tra l'altro). I caricamenti di PCA, ovviamente, catturano il massimo possibile della varianza complessiva di , la varianza del componenteX1X2h1h2cosϕh12+h22a12+a22F

Ora, la covarianza , dove è la proiezione della variabile sulla variabile (la proiezione che è la previsione di regressione della prima con la seconda). E così la grandezza della covarianza potrebbe essere resa dall'area del rettangolo sottostante (con i lati e ).h1h2cosϕ=g1h2g1X1X2g1h2

inserisci qui la descrizione dell'immagine

Secondo il cosiddetto "teorema dei fattori" (potresti sapere se leggi qualcosa sull'analisi dei fattori), la covarianza (e) tra le variabili dovrebbe essere (strettamente, se non esattamente) riprodotta dalla moltiplicazione dei caricamenti delle variabili latenti estratte ( leggi ). Cioè, , nel nostro caso particolare (se riconoscere il componente principale come nostra variabile latente). Quel valore della covarianza riprodotta potrebbe essere reso dall'area di un rettangolo con i lati e . Disegniamo il rettangolo, allineato al rettangolo precedente, per confrontare. Quel rettangolo è mostrato tratteggiato sotto e la sua area è soprannominata cov * ( cov riprodotta ).a1a2a1a2

inserisci qui la descrizione dell'immagine

È ovvio che le due aree sono abbastanza diverse, con cov * che è considerevolmente più grande nel nostro esempio. La covarianza è stata sopravvalutata dai caricamenti di , il primo componente principale. Ciò è contrario a qualcuno che potrebbe aspettarsi che PCA, solo dal primo componente dei due possibili, ripristinerà il valore osservato della covarianza.F

Cosa potremmo fare con la nostra trama per incantare la riproduzione? Ad esempio, possiamo ruotare leggermente il raggio senso orario, anche finché non si sovrappone a . Quando le loro linee coincidono, ciò significa che abbiamo costretto ad essere la nostra variabile latente. Quindi il caricamento di (proiezione di su di esso) sarà e il caricamento di (proiezione di su di esso) sarà . Quindi due rettangoli sono gli stessi - quello che era etichettato cov , e quindi la covarianza è riprodotta perfettamente. Tuttavia, , la varianza spiegata dalla nuova "variabile latente", è minore diFX2X2a2X2h2a1X1g1g12+h22a12+a22 , la varianza spiegata dalla vecchia variabile latente, il primo componente principale (quadrare e impilare i lati di ciascuno dei due rettangoli sull'immagine, per confrontare). Sembra che siamo riusciti a riprodurre la covarianza, ma a spese di spiegare l'entità della varianza. Vale a dire selezionando un altro asse latente invece del primo componente principale.

La nostra immaginazione o ipotesi può suggerire (non lo farò e forse non posso dimostrarlo in matematica, non sono un matematico) che se liberiamo l'asse latente dallo spazio definito da e , il piano, permettendogli di oscillare un un po 'verso di noi, possiamo trovarne una posizione ottimale - chiamiamolo, diciamo, - per cui la covarianza viene nuovamente riprodotta perfettamente dai caricamenti emergenti ( ) mentre la varianza spiegava ( ) sarà più grande di , anche se non così grande come del componente principale .X1X2Fa1a2a12+a22g12+h22a12+a22F

Credo che questa condizione sia realizzabile, in particolare in quel caso in cui l'asse latente viene disegnato estendendosi dal piano in modo da tirare una "cappa" di due piani ortogonali derivati, uno contenente l'asse e e l'altro contenente l'asse e . Quindi questo asse latente chiameremo il fattore comune e l'intero nostro "tentativo di originalità" sarà chiamato analisi dei fattori .FX1X2


Una risposta all '"Aggiornamento 2" di @ amoeba rispetto a PCA.

@amoeba è corretto e pertinente per ricordare il teorema di Eckart-Young che è fondamentale per la PCA e le sue tecniche congeneriche (PCoA, biplot, analisi delle corrispondenze) basate su SVD o decomposizione degli eigen. Secondo esso, primi assi principali di minimizzano in modo ottimale - una quantità pari a , - nonché . Qui sta per i dati riprodotti dagli assi principali . si caratterizza per essere uguale a , con essendo le variabili carichi delkX||XXk||2tr(XX)tr(XkXk)||XXXkXk||2XkkXkXkWkWkWkk componenti.

Significa che la minimizzazione rimane vera se consideriamo solo porzioni off-diagonali di entrambe le matrici simmetriche? Ispezioniamolo sperimentando.||XXXkXk||2

Sono state generate 500 10x6matrici casuali (distribuzione uniforme). Per ciascuno, dopo aver centrato le sue colonne, è stata eseguita la PCA e sono calcolate due matrici di dati ricostruite : una come ricostruita dai componenti da 1 a 3 ( prima, come al solito in PCA), e l'altra ricostruita dai componenti 1, 2 e 4 (ovvero, il componente 3 è stato sostituito da un componente più debole 4). L'errore di ricostruzione (somma della differenza quadrata = distanza euclidea quadrata) è stato quindi calcolato per uno , per l'altro . Questi due valori sono una coppia da mostrare su un diagramma a dispersione.XXkk||XXXkXk||2XkXk

L'errore di ricostruzione è stato calcolato ogni volta in due versioni: (a) matrici intere e rispetto; (b) solo fuori diagonali delle due matrici confrontate. Pertanto, abbiamo due grafici a dispersione, ciascuno con 500 punti.XXXkXk

inserisci qui la descrizione dell'immagine

Vediamo che sul diagramma "intera matrice" tutti i punti si trovano sopra la y=xlinea. Ciò significa che la ricostruzione dell'intera matrice prodotto scalare è sempre più accurata di "da 1 a 3 componenti" rispetto a "1, 2, 4 componenti". Questo è in linea con Eckart-Young teorema dice: prima componenti principali sono i migliori installatori.k

Tuttavia, quando osserviamo la trama "solo fuori diagonali" notiamo un numero di punti sotto la y=xlinea. Sembrava che a volte la ricostruzione di porzioni fuori diagonali da "1 a 3 componenti" fosse peggiore di "1, 2, 4 componenti". Ciò porta automaticamente alla conclusione che i primi componenti principali non sono regolarmente i migliori installatori di prodotti scalari off-diagonali tra gli installatori disponibili in PCA. Ad esempio, assumere una componente più debole anziché una più forte può talvolta migliorare la ricostruzione.k

Quindi, anche nel dominio della PCA stessa, i componenti principali senior - che fanno la varianza complessiva approssimativa, come sappiamo, e anche l'intera matrice di covarianza - non necessariamente approssimano le covarianze off-diagonali . È quindi necessaria una migliore ottimizzazione di quelli; e sappiamo che l' analisi dei fattori è la (o tra le) tecniche che può offrirla.


Un seguito all'aggiornamento 3 di @ amoeba: PCA si avvicina alla FA man mano che aumenta il numero di variabili? PCA è un valido sostituto di FA?

Ho condotto una serie di studi di simulazione. Un numero limitato di strutture di fattori di popolazione, caricamento di matrici sono state costruite con numeri casuali e convertite nelle corrispondenti matrici di covarianza di popolazione come , con è un rumore diagonale (unico varianze). Queste matrici di covarianza sono state fatte con tutte le varianze 1, quindi erano uguali alle loro matrici di correlazione.AR=AA+U2U2

Sono stati progettati due tipi di struttura dei fattori: nitida e diffusa . La struttura nitida è una struttura chiara e semplice: i carichi sono "alti" o "bassi", senza intermedi; e (nel mio progetto) ogni variabile è altamente caricata esattamente di un fattore. Il corrispondente è quindi notevolmente simile a un blocco. La struttura diffusa non distingue tra carichi alti e bassi: possono essere qualsiasi valore casuale all'interno di un limite; e non viene concepito alcun modello all'interno dei caricamenti. Di conseguenza, il corrispondente diventa più fluido. Esempi di matrici di popolazione:RR

inserisci qui la descrizione dell'immagine

Il numero di fattori era o . Il numero di variabili è stato determinato dal rapporto k = numero di variabili per fattore ; k ha eseguito valori nello studio.264,7,10,13,16

Per ognuna delle poche popolazioni costruite , sono state generate realizzazioni casuali dalla distribuzione di Wishart (sotto la dimensione del campione ). Queste erano matrici di covarianza campione . Ciascuno di essi è stato analizzato in base al fattore FA (per estrazione dell'asse principale) e PCA . Inoltre, ciascuna di queste matrici di covarianza è stata convertita nella corrispondente matrice di correlazione dei campioni che è stata analizzata in modo fattoriale (fattorizzato) allo stesso modo. Infine, ho anche eseguito il factoring della matrice "parent", covarianza di popolazione (= correlazione) stessa. La misura di Kaiser-Meyer-Olkin dell'adeguatezza del campionamento era sempre superiore a 0,7.50R50n=200

Per i dati con 2 fattori, le analisi hanno estratto 2 e anche 1 e 3 fattori ("sottovalutazione" e "sovrastima" del numero corretto di regimi di fattori). Per i dati con 6 fattori, le analisi hanno anche estratto 6 e anche 4 e 8 fattori.

Lo scopo dello studio erano le qualità di restauro di covarianze / correlazioni di FA vs PCA. Pertanto sono stati ottenuti residui di elementi fuori diagonale. Ho registrato i residui tra gli elementi riprodotti e gli elementi della matrice della popolazione, nonché i residui tra il primo e gli elementi della matrice del campione analizzati. I residui del 1 ° tipo erano concettualmente più interessanti.

I risultati ottenuti dopo analisi fatte sulla covarianza dei campioni e sulle matrici di correlazione dei campioni presentavano alcune differenze, ma tutti i principali risultati si sono rivelati simili. Pertanto sto discutendo (mostrando i risultati) solo delle analisi "modalità correlazioni".

1. Vestibilità fuori diagonale complessiva da PCA vs FA

La grafica sotto traccia, contro vari numeri di fattori e diversi k, il rapporto tra il residuo fuori diagonale quadrato medio prodotto in PCA e la stessa quantità prodotta in FA . Questo è simile a quanto mostrato da @amoeba in "Aggiornamento 3". Le linee sul diagramma rappresentano tendenze medie attraverso le 50 simulazioni (ometto di mostrare barre di errore di st su di esse).

(Nota: i risultati riguardano il factoring di matrici di correlazione di campioni casuali , non il factoring della matrice di popolazione parentale ad essi: è sciocco confrontare PCA con FA su quanto bene spiegano una matrice di popolazione - FA vincerà sempre, e se il viene estratto il numero corretto di fattori, i suoi residui saranno quasi zero e quindi il rapporto si precipiterebbe verso l'infinito.)

inserisci qui la descrizione dell'immagine

Commentando questi grafici:

  • Tendenza generale: man mano che k (numero di variabili per fattore) cresce, il rapporto di subfit complessivo PCA / FA si attenua verso 1. Cioè, con più variabili, PCA si avvicina a FA nello spiegare correlazioni / covarianze off-diagonali. (Documentato da @amoeba nella sua risposta.) Presumibilmente la legge che si avvicina alle curve è ratio = exp (b0 + b1 / k) con b0 vicino a 0.
  • Il rapporto è maggiore dei residui wrt "campione meno campione riprodotto" (diagramma sinistro) rispetto ai residui wrt "popolazione meno campione riprodotto" (diagramma destro). Cioè (banalmente), PCA è inferiore a FA nell'adattare la matrice immediatamente analizzata. Tuttavia, le linee sul grafico a sinistra hanno un tasso di riduzione più rapido, quindi per k = 16 anche il rapporto è inferiore a 2, come lo è sul grafico a destra.
  • Con i residui "popolazione meno campione riprodotto", le tendenze non sono sempre convesse o addirittura monotoniche (i gomiti insoliti sono mostrati cerchiati). Quindi, fintanto che il discorso riguarda la spiegazione di una matrice di coefficienti di popolazione attraverso il factoring di un campione, l'aumento del numero di variabili non porta regolarmente l'APC più vicino alla FA nella sua qualità fittinq, sebbene la tendenza sia presente.
  • Il rapporto è maggiore per m = 2 fattori rispetto a m = 6 fattori nella popolazione (le linee rosse in grassetto sono sotto le linee verdi in grassetto). Ciò significa che con più fattori che agiscono nei dati PCA raggiunge prima l'AF. Ad esempio, sul grafico a destra k = 4 restituisce un rapporto di circa 1,7 per 6 fattori, mentre lo stesso valore per 2 fattori viene raggiunto in k = 7.
  • Il rapporto è maggiore se estraiamo più fattori rispetto al numero reale di fattori. Cioè, PCA è solo leggermente peggiore di un FA se all'estrazione sottovalutiamo il numero di fattori; e perde di più se il numero di fattori è corretto o sopravvalutato (confronta le linee sottili con le linee in grassetto).
  • C'è un effetto interessante della nitidezza della struttura del fattore che appare solo se consideriamo i residui “popolazione meno campione riprodotto”: confrontare i grafici grigi e gialli sulla destra. Se i fattori di popolazione caricano le variabili in modo diffuso, le linee rosse (m = 6 fattori) scendono sul fondo. Cioè, nella struttura diffusa (come i caricamenti di numeri caotici) il PCA (eseguito su un campione) è solo leggermente peggio di AF nel ricostruire le correlazioni della popolazione, anche con k piccoli, a condizione che il numero di fattori nella popolazione non sia molto piccolo. Questa è probabilmente la condizione in cui la PCA è più vicina alla FA ed è più giustificata come suo sostituto più economico. Mentre in presenza di una forte struttura dei fattori, il PCA non è così ottimista nel ricostruire le correlazioni (o covarianze) della popolazione: si avvicina alla FA solo in una prospettiva di grande k.

2. Adattamento a livello di elemento da parte di PCA vs FA: distribuzione dei residui

Per ogni esperimento di simulazione in cui è stato eseguito il factoring (mediante PCA o FA) di 50 matrici di campioni casuali dalla matrice di popolazione, è stata ottenuta la distribuzione dei residui "correlazione della popolazione meno la correlazione del campione riprodotta (dal factoring)" per ogni elemento di correlazione off-diagonale. Le distribuzioni hanno seguito schemi chiari, e gli esempi di distribuzioni tipiche sono rappresentati proprio sotto. I risultati dopo il factoring PCA sono i lati blu a sinistra e i risultati dopo il factoring FA sono i lati verdi a destra.

inserisci qui la descrizione dell'immagine

La scoperta principale è quella

  • Pronunciati, per magnitudine assoluta, le correlazioni di popolazione vengono ripristinate dal PCA in modo inadeguato: i valori riprodotti vengono sopravvalutati per magnitudine.
  • Ma il bias svanisce all'aumentare di k (rapporto tra numero variabili e numero di fattori). Nella foto, quando vi sono solo k = 4 variabili per fattore, i residui di PCA si diffondono in offset da 0. Questo si vede sia quando esistono 2 fattori che 6 fattori. Ma con k = 16 l'offset è appena visto: quasi scompare e l'adattamento PCA si avvicina all'adattamento FA. Non si osserva alcuna differenza nella diffusione (varianza) dei residui tra PCA e FA.

Un'immagine simile si vede anche quando il numero di fattori estratti non corrisponde al numero reale di fattori: solo la varianza dei residui cambia in qualche modo.

Le distribuzioni mostrate sopra su sfondo grigio riguardano gli esperimenti con una struttura dei fattori nitida (semplice) presente nella popolazione. Quando tutte le analisi sono state condotte in una situazione di struttura di fattori di popolazione diffusa , si è scoperto che il bias del PCA svanisce non solo con l'aumento di k, ma anche con l'aumento di m (numero di fattori). Si prega di vedere gli allegati di sfondo giallo ridimensionati alla colonna "6 fattori, k = 4": non c'è quasi alcun offset da 0 osservato per i risultati PCA (l'offset è ancora presente con m = 2, che non è mostrato nella figura ).

Pensando che i risultati descritti siano importanti, ho deciso di ispezionare più in profondità quelle distribuzioni residue e ho tracciato i grafici a dispersione dei residui (asse Y) rispetto al valore dell'elemento (correlazione della popolazione) (asse X). Questi grafici a dispersione combinano ciascuno i risultati di tutte le molte (50) simulazioni / analisi. La linea di adattamento LOESS (50% di punti locali da utilizzare, kernel Epanechnikov) è evidenziata. La prima serie di grafici riguarda il caso di una struttura dei fattori nitida nella popolazione (la trimodalità dei valori di correlazione è quindi evidente):

inserisci qui la descrizione dell'immagine

Commentando:

  • Vediamo chiaramente il bias di ricostituzione (descritto sopra) che è caratteristico della PCA come la linea di loess inclinata e negativa: le correlazioni della popolazione con valori assoluti sono sovrastimate dal PCA dei set di dati di esempio. FA è imparziale (loess orizzontale).
  • Man mano che k cresce, il pregiudizio di PCA diminuisce.
  • La PCA è distorta indipendentemente da quanti fattori ci siano nella popolazione: con 6 fattori esistenti (e 6 estratti alle analisi) è similmente difettoso come con 2 fattori esistenti (2 estratti).

La seconda serie di grafici di seguito è relativa al caso della struttura a fattore diffuso nella popolazione:

inserisci qui la descrizione dell'immagine

Ancora una volta osserviamo la distorsione da PCA. Tuttavia, a differenza del caso di struttura di un fattore nitido, la distorsione si attenua con l'aumentare del numero di fattori: con 6 fattori di popolazione, la linea di loess di PCA non è molto lontana dall'essere orizzontale anche sotto k solo 4. Questo è ciò che abbiamo espresso da " istogrammi gialli "prima.

Un fenomeno interessante su entrambi i set di grafici a dispersione è che le linee di loess per PCA sono curve a S. Questa curvatura si manifesta sotto altre strutture di fattori di popolazione (caricamenti) casualmente costruiti da me (ho verificato), sebbene il suo grado vari ed è spesso debole. Se deriva dalla forma a S, allora il PCA inizia a distorcere rapidamente le correlazioni mentre rimbalzano da 0 (specialmente con una piccola k), ma da un certo valore in poi - intorno a .30 o .40 - si stabilizza. In questo momento non speculerò per la possibile ragione di quel comportamento, anche se credo che la "sinusoide" derivi dalla natura triginometrica della correlazione.

Misura da PCA vs FA: conclusioni

Come montatore generale della porzione off-diagonale di una matrice di correlazione / covarianza, il PCA - quando applicato per analizzare una matrice campione da una popolazione - può essere un buon sostituto dell'analisi fattoriale. Questo succede quando il numero di variabili / numero di fattori previsti è abbastanza grande. (La ragione geometrica dell'effetto benefico del rapporto è spiegata nella nota a piè di pagina ). Con più fattori esistenti, il rapporto può essere inferiore rispetto a pochi fattori. La presenza di una forte struttura a fattori (esiste una struttura semplice nella popolazione) impedisce alla PCA di avvicinarsi alla qualità della FA.1

L'effetto della forte struttura dei fattori sulla capacità di adattamento generale del PCA è evidente solo se si considera la "popolazione meno il campione riprodotto" dei residui. Pertanto, ci si può perdere a riconoscerlo al di fuori di un'impostazione dello studio di simulazione - in uno studio osservazionale di un campione non abbiamo accesso a questi importanti residui.

A differenza dell'analisi fattoriale, la PCA è uno stimatore (positivamente) distorto dell'entità delle correlazioni (o covarianze) della popolazione che sono lontane da zero. La polarizzazione della PCA tuttavia diminuisce all'aumentare del numero di variabili / numero di fattori attesi. La polarizzazione diminuisce anche con l' aumentare del numero di fattori nella popolazione, ma quest'ultima tendenza è ostacolata da una forte struttura dei fattori presente.

Vorrei sottolineare che il bias di adattamento del PCA e l'effetto di una struttura nitida su di esso possono essere scoperti anche considerando i residui "campione meno campione riprodotto"; Ho semplicemente omesso di mostrare tali risultati perché sembrano non aggiungere nuove impressioni.

Il mio molto incerta, ampia consulenza , alla fine, potrebbe essere quello di astenersi dall'utilizzare PCA invece di FA per tipico (cioè con 10 o meno fattori di attesa nella popolazione) fattore di analisi fini a meno che non si dispone di alcuni 10+ volte più variabili rispetto ai fattori. E meno sono i fattori, maggiore è il rapporto necessario. Inoltre non consiglierei affatto di usare PCA al posto di FA ogni volta che vengono analizzati dati con una struttura dei fattori ben definita e definita, ad esempio quando viene eseguita l'analisi dei fattori per convalidare il test psicologico o il questionario in fase di sviluppo o già avviato con costrutti / scale articolati . La PCA può essere utilizzata come strumento di selezione preliminare iniziale di articoli per uno strumento psicometrico.

Limitazioni dello studio. 1) Ho usato solo il metodo PAF per l'estrazione del fattore. 2) La dimensione del campione è stata fissata (200). 3) La popolazione normale è stata assunta nel campionamento delle matrici del campione. 4) Per una struttura nitida, è stato modellato un numero uguale di variabili per fattore. 5) Costruire caricamenti di fattori di popolazione li ho presi in prestito da una distribuzione approssimativamente uniforme (per una struttura affilata - trimodale, cioè uniforme a 3 pezzi). 6) Potrebbero esserci sviste in questo esame istantaneo, ovviamente, come ovunque.


Nota . PCA imiterà i risultati di FA e diventerà l'equivalente adattatore delle correlazioni quando - come detto qui - le variabili di errore del modello, chiamate fattori unici , diventano non correlate. FA cerca di renderli non correlati, ma PCA non, possono capitare ad essere non correlati in PCA. La principale condizione in cui può verificarsi è quando il numero di variabili per numero di fattori comuni (componenti mantenuti come fattori comuni) è elevato.1

Considera le seguenti foto (se prima devi imparare come capirle, leggi questa risposta ):

inserisci qui la descrizione dell'immagine

In base al requisito dell'analisi fattoriale per poter ripristinare le correlazioni con successo con pochi mfattori comuni, i fattori unici , che caratterizzano parti statisticamente uniche delle variabili manifest , devono essere non correlati. Quando si usa il PCA, gli devono trovarsi nel sottospazio dello spazio espanso dagli poiché il PCA non lascia lo spazio delle variabili analizzate. Quindi - vedi l'immagine a sinistra - con (il componente principale è il fattore estratto) e ( , ) analizzati, fattori unici ,X U X P 1 X 1 X 2 U 1 U 2 r = - 1UpXp Up-mpXm=1P1p=2X1X2U1U2sovrapporre obbligatoriamente il restante secondo componente (che funge da errore dell'analisi). Di conseguenza devono essere correlati con . (Nella foto, le correlazioni equivalgono ai coseni degli angoli tra i vettori.) L'ortogonalità richiesta è impossibile e la correlazione osservata tra le variabili non può mai essere ripristinata (a meno che i fattori unici non siano vettori zero, un caso banale).r=1

Ma se aggiungi un'altra variabile ( ), la foto a destra ed estrai ancora una pr. componente come fattore comune, le tre devono trovarsi su un piano (definito dai restanti due componenti pr). Tre frecce possono estendersi su un piano in modo tale che gli angoli tra loro siano inferiori a 180 gradi. Lì emerge la libertà per gli angoli. Come possibile caso particolare, gli angoli possono essere circa uguali, 120 gradi. Questo non è già molto lontano dai 90 gradi, cioè dalla non correlazione. Questa è la situazione mostrata in figura. UX3U

Quando aggiungiamo la 4a variabile, 4 occuperanno lo spazio 3d. Con 5, 5 su 4d, ecc . Si espanderà lo spazio per molti angoli contemporaneamente per raggiungere un angolo di 90 °. Ciò significa che si espanderà anche la possibilità per PCA di avvicinarsi a FA nella sua capacità di adattare triangoli off-diagonali di matrice di correlazione.U

Ma il vero FA è di solito in grado di ripristinare le correlazioni anche con un piccolo rapporto "numero di variabili / numero di fattori" perché, come spiegato qui (e vedi la seconda foto lì), l'analisi dei fattori consente tutti i vettori (fattori comuni e unici) quelli) deviare dal mentire nello spazio delle variabili. Quindi c'è spazio per l'ortogonalità di s anche con solo 2 variabili e un fattore.XUX

Le foto sopra forniscono anche un chiaro indizio del perché la PCA sopravvaluta le correlazioni. Nella foto a sinistra, ad esempio, , dove sono le proiezioni degli su (caricamenti di ) e sono le lunghezze degli (caricamenti di ). Ma quella correlazione ricostruita dal solo equivale a solo , ovvero maggiore di . a X P 1 P 1 u U P 2 P 1 a 1 a 2 r X 1 X 2rX1X2=a1a2u1u2aXP1P1uUP2P1a1a2rX1X2


1
Adoro i tuoi disegni PCA / FA / CCA, così felicemente +1. Questo modo di pensare è qualcosa a cui non sono completamente abituato, quindi richiede qualche pensiero per mapparlo alla matematica che conosco ... Tuttavia, nota che qui (così come nella tua altra famosa risposta FA-vs-PCA con disegni) hai solo due variabili. Come ho detto nella mia risposta, quando ci sono solo due variabili, un fattore in FA è sufficiente per riprodurre perfettamente la covarianza (100%), poiché esiste solo un grado di libertà nella matrice di covarianza, a parte la diagonale), ma un PC generalmente non può farlo. Quindi non c'è contraddizione con la mia risposta.
ameba dice di ripristinare Monica l'

Spero di non aver frainteso il punto della diversa riproduzione di FA e PCA. Il posto qui è abbreviato per il mio punto, lo metterei in un'altra risposta
Gottfried Helms

2
In risposta al tuo aggiornamento (che è la tua risposta al mio aggiornamento 2): sono assolutamente d'accordo con tutto ciò che hai scritto qui! I caricamenti di PCA sono la migliore approssimazione di basso rango all'intera matrice di covarianza (compresa la diagonale), ma non necessariamente la migliore approssimazione di basso rango alla parte off-diagonale di essa; quest'ultima approssimazione è data dall'analisi fattoriale. Sembra che qui abbiamo raggiunto un accordo reciproco; o ritieni ancora che alcune parti della mia risposta siano in contraddizione con il tuo pensiero?
ameba dice di reintegrare Monica il

1
@ttnphns: ho riletto la nostra discussione sopra e mi lascio tornare a un punto che ho fatto nella mia risposta originale. PCA cerca di trovare caricamenti che si avvicinano all'intera matrice di covarianza; FA tenta di trovare i caricamenti che si avvicinano alla parte off-diagonale di esso. Ma maggiore è la dimensionalità, la parte più piccola della matrice di covarianza è presa dalla sua diagonale, il che significa che in grandi dimensioni PCA inizia a preoccuparsi principalmente della parte off-diagonale di essa (perché la parte diagonale diventa così piccola). Quindi, in generale, più grande è la dimensionalità, più l'APC si avvicina alla FA. Sei d'accordo?
ameba dice di reintegrare Monica il

1
Grazie per il ping, ttnphns. Wow, sembra interessante. Lo leggerò attentamente ma non ora; Potrei doverlo rimandare a gennaio. Commenterò qui una volta letto. A proposito, ho pensato (nella parte posteriore della mia testa) di tornare a questo thread e di modificare un po 'la mia risposta per renderla più "riconciliante". Questa potrebbe essere una buona opportunità per farlo (ma fammi leggere quello che hai scritto prima). С наступающим!
ameba dice di reintegrare Monica il

4

(Questo è davvero un commento alla seconda risposta di @ ttnphns)
Per quanto riguarda il diverso tipo di riproduzione della covarianza che assume errori da PC e da FA, ho semplicemente stampato i caricamenti / componenti della varianza che si verificano nei due precedenti ; solo per gli esempi ho preso 2 variabili.

Partiamo dal presupposto che la costruzione dei due elementi sia un fattore comune e fattori specifici dell'articolo. Ecco quella matrice di fattori di carico:

  L_fa: 
          f1       f2      f3         
  X1:   0.894    0.447     .             
  X1:   0.894     .       0.447              

La matrice di correlazione è questa

  C:
         X1       X2 
  X1:   1.000   0.800
  X2:   0.800   1.000

Se osserviamo la matrice di loading L_fa e la interpretiamo come al solito in FA che f2 e f3 sono termini di errore / errore specifico degli articoli, riproduciamo C senza quell'errore, ricevendo

 C1_Fa 
        X1       X2 
 X1:  0.800   0.800
 X2:  0.800   0.800

Quindi abbiamo riprodotto perfettamente l'elemento off-diagonale, che è la covarianza (e la diagonale è ridotta)

Se osserviamo la soluzione pca (può essere fatta con semplici rotazioni) otteniamo i due fattori dalla stessa matrice di correlazione:

 L_pca : 
         f1        f2
 X1:   0.949      -0.316
 X2:   0.949       0.316

Supponendo che il secondo fattore sia un errore, otteniamo la matrice riprodotta delle covarianze

  C1_PC : 
        X1      X2
 X1:   0.900   0.900
 X2:   0.900   0.900

dove abbiamo sopravvalutato la vera correlazione. Questo perché abbiamo ignorato la covarianza parziale negativa di correzione nel secondo fattore = errore. Si noti che il PPCA sarebbe identico al primo esempio.

Con più articoli questo non è più così ovvio ma è comunque un effetto intrinseco. Quindi c'è anche il concetto di estrazione MinRes (o -rotazione?) E ho anche visto qualcosa di simile all'estrazione determinante massima e ...


[aggiornamento] Per quanto riguarda la domanda di @amoeba:

Ho capito il concetto di "Minimal Residuals" ("MinRes") - rotazione come metodo concorrente ai precedenti metodi di calcolo CFA, per ottenere la migliore riproduzione degli elementi off-diagonali di una matrice di correlazione. L'ho imparato negli anni '80 / '90 e non ho seguito lo sviluppo dell'analisi fattoriale (approfondita come negli ultimi anni), quindi probabilmente "MinRes" è fuori moda.

Per confrontarlo con la soluzione PCA : si può pensare di trovare la soluzione pc mediante rotazioni dei fattori quando sono pensati come assi in uno spazio euclideo e i carichi sono le coordinate degli oggetti in quello spazio vettoriale.
Quindi per una coppia di assi dite x, y vengono calcolate le somme dei quadrati dai carichi dell'asse xe quella dell'asse y.
Da questo si può trovare un angolo di rotazione, con il quale dovremmo ruotare, per ottenere la somma dei quadrati negli assi ruotati massima sull'asse x ° e minima sull'asse y ° (dove il cerchio di litte indica gli assi ruotati) .

In questo modo per tutte le coppie di assi (dove solo l'asse x è la sinistra e l'asse y è la destra (quindi per 4 fattori abbiamo solo 6 coppie di rotazione)) e quindi ripetere l'intero processo con un risultato stabile realizza il cosiddetto "metodo Jacobi" per la ricerca della soluzione dei componenti principali: localizzerà il primo asse in modo tale da raccogliere la somma massima possibile dei quadrati dei carichi ("SSqL") (che significa anche "della varianza ") su un asse nella configurazione correlazionale corrente.

Per quanto ho capito, " MinRes " dovrebbe guardare le correlazioni parziali invece di SSqL; quindi non riassume i quadrati dei carichi (come fatto nella rotazione Jacobi-pc) ma riassume i prodotti incrociati dei carichi in ciascun fattore - tranne i "prodotti incrociati" (= quadrati) dei carichi di ciascuno oggetto con se stesso.
Dopo che sono stati calcolati i criteri per l'asse xe per l'asse y, procede nello stesso modo descritto per la rotazione iterativa di jacobi.

Poiché il criterio di rotazione è numericamente diverso dal criterio SSqL massimo, il risultato / posizione di rotazione deve essere diverso dalla soluzione PCA. Se converge, dovrebbe invece fornire la massima correlazione parziale possibile su un asse nel primo fattore, la successiva massima correlazione sul fattore successivo e così via. L'idea sembra essere, quindi, assumere così tanti assi / fattori in modo tale che la covarianza parziale rimanente / residua diventi marginale.

(Nota che questo è solo il modo in cui ho interpretato le cose, non ho visto quella procedura esplicitamente scritta (o non riesco a ricordare al momento); una descrizione su mathworld sembra esprimerla piuttosto in termini di formule come nella risposta di ameba) ed è probabilmente più autorevole. Ho appena trovato un altro riferimento nella documentazione del progetto R e probabilmente un ottimo riferimento nel libro Gorsuch sulla fattanalisi, pagina 116, disponibile tramite google-books )


Puoi spiegare a cosa ti riferisci nell'ultima frase? Che cos'è l'estrazione "MinRes" o "determinante massimo" e in che modo è correlata a ciò che hai scritto prima?
ameba dice di ripristinare Monica il

"MinRes" è un metodo di estrazione o rotazione che mi sono imbattuto anni fa nelle monografie su Factoranalysis di S Mulaik o K. Überla. Si concentra sulla riduzione al minimo degli elementi residui diagonali. Dato che era stato menzionato esplicitamente nel contesto di molti altri metodi, ho ipotizzato che - possibilmente leggermente - fosse diverso dal CFA - le implementazioni di quell'epoca. Avevo cercato di implementare la sua logica come criterio di rotazione, ma in qualche modo non avevo ottenuto risultati conclusivi. Mi aspettavo anche che "Massimizzare il determinante" fosse conosciuto qui; Vedrò quale descrizione avevo ricevuto 20 anni fa ...
Gottfried Helms,

Ah, ho entrambe le parti. Una descrizione del criterio di rotazione per "minres" -rationale è disponibile su go.helms-net.de/stat/fa/minres.htm . Il "determinante massimo" è il modello matematico secondo un metodo di estrazione / rotazione di un corrispondente Jeffrey Owen Katz che lo ha chiamato "oblisim" e probabilmente è stato sviluppato dopo la nostra corrispondenza. A quel punto era sopra la mia testa; comunque ho cercato di capire il metodo e formattato e riorganizzato in un file di parole. Vedi go.helms-net.de/stat/fa/oblisim.zip Google per "oblisim" ha dato una voce al newsgroup che sembra averlo introdotto.
Gottfried Helms

@amoeba: Ecco forse la prima voce, in cui Jeff Katz ha introdotto la sua serie di metodi: mathforum.org/kb/message.jspa?messageID=1516627 È del 1998, quindi la mia ipotesi circa 20 anni fa era un po 'imprecisa ...
Gottfried Helms

2

A mio avviso, le nozioni di "PCA" e "FA" hanno una dimensione diversa da quella delle nozioni di "esplorativo", "confermativo" o forse "inferenziale". Quindi ciascuno dei due metodi matematici / statistici può essere applicato con uno dei tre approcci.

Ad esempio, perché dovrebbe essere insensato avere un'ipotesi, che i miei dati abbiano un fattore generale e anche la struttura di un insieme di componenti principali (perché il mio esperimento con il mio apparato elettronico mi ha dato dati quasi errati) e testare la mia ipotesi, che gli autovalori dei fattori successivi si verificano con un rapporto del 75%? Questo è quindi PCA in un quadro di conferma.

D'altra parte, sembra ridicolo che nel nostro gruppo di ricerca creiamo con molto lavoro un articolo batteria per misurare la violenza tra gli alunni e assumere 3 comportamenti principali (aggressione fisica, depressione, ricerca di aiuto da parte delle autorità / genitori) e porre le relative domande in quella batteria ... ed "esplorativamente" elaboriamo quanti fattori abbiamo ... Invece di guardare, quanto bene la nostra bilancia contiene tre fattori riconoscibili (oltre a elementi trascurabili specifici e probabilmente anche errori falsamente correlati). E dopo ciò, quando avrò confermato, che in effetti il ​​nostro articolo-batteria serve l'intenzione, potremmo testare l'ipotesi, che nelle classi di bambini più piccoli i carichi sul fattore che indica "ricerca-aiuto-da-autorità" sono più alti di quello degli alunni più grandi. Hmmm, ancora una volta confermativo ...

Ed esplorativo? Ho una serie di misure prese da una ricerca sulla microbiologia del 1960 e non avevano molta teoria ma campionavano tutto ciò che potevano gestire perché il loro campo di ricerca era solo molto giovane, e riesploro la struttura dei fattori dominante, supponendo (ad esempio) , che tutti gli errori sono della stessa quantità a causa della precisione ottica del microscopio utilizzato (il ppca-ansatz come ho appena appreso). Quindi uso il modello statistico (e successivamente quello matematico) per la FA, ma in questo caso in modo esplorativo.

Questo è almeno come capisco i termini.
Forse sono completamente sulla strada sbagliata qui, ma non lo presumo.


Ps. Negli anni '90 ho scritto un piccolo programma interattivo per esplorare il metodo della PCA e l'analisi dei fattori fino in fondo. È stato scritto in Turbo-Pascal, può ancora essere eseguito solo in una Dos-Window ("Dos-box" sotto Win7) ma ha un fascino davvero interessante: cambiare interattivamente i fattori da includere o meno, quindi ruotare, separare gli errori specifici degli elementi- varianza (secondo il criterio SMC o il criterio di uguaglianza varianze (ppca?)), attiva e disattiva l'opzione Kaiser, attiva e disattiva l'uso delle covarianze - tutto mentre la matrice factorloading è visibile come in un foglio di calcolo e può essere ruotato per i diversi metodi di rotazione di base.
Non è molto sofisticato: nessun test di chisquare per esempio, solo per l'autoapprendimento della meccanica matematica interna. Ha anche una "modalità demo", in cui il programma si esegue da solo, mostrando commenti esplicativi sullo schermo e simulando gli input da tastiera, che l'utente normalmente farebbe.
Chiunque sia interessato a studiare da solo o insegnare con esso può scaricarlo dalle mie piccole pagine di software all'interno di (R) .zip Basta espandere i file nella zip in una directory accessibile da Dos-Box e chiamare "demoall.bat" In la terza parte del "demoall" ho fatto una dimostrazione su come modellare gli errori specifici degli articoli mediante rotazioni da una soluzione pca inizialmente ...


Una porta R del tuo programma sarebbe interessante. A proposito, il mio primo linguaggio di programmazione (e uno dei preferiti) è stato [Turbo] Pascal. L'ho persino usato per scrivere software per il mio lavoro di diploma BS. Poi, qualche tempo dopo, ho usato Delphi per un po ', insieme ad altre lingue e sistemi. :-)
Aleksandr Blekh,

1
@Aleksandr: Beh, un'importazione del genere sarebbe sicuramente una bella idea; tuttavia ... nel frattempo ricevo i "biglietti per senior" per il sistema del traffico locale e, anche se non ancora stanco, sono un po 'stanco di programmare ... Penso che "Delphi" sia stato un sostituto naturale di Turbo Pascal ; Avevo notevolmente migliorato Inside- [r] fino a un calcolatore a matrice "MatMate" usando Delphi 6 in cui ho incorporato Inside- [r] come strumento di supporto. Tuttavia, a volte penso, quella caratteristica davvero bella con punta e clic in Inside- [r] dovrebbe anche essere ri-realizzata - oltre a qualsiasi linguaggio di script o interpretariato sofisticato ...
Gottfried Helms

2

Solo un'ulteriore osservazione per la lunga (e davvero fantastica) risposta di @ amoebas sul carattere del stimato. Ψ

Nelle tue dichiarazioni iniziali hai tre : per PCA è , per PPCA è e per FA hai lasciato indeterminato. Ψ = 0 Ψ = σ 2 I ΨΨΨ=0Ψ=σ2IΨ

Ma va detto che esiste un numero infinito di vari possibili (sicuramente limitato) ma esattamente uno solo che minimizza il rango della matrice dei fattori. Chiamiamo questo La stima standard (automatica) per è la diagonalmatrix basata sugli SMC, quindi scriviamo come (e anche alcuni software (sembrano) non tentano di ottimizzare giù da mentre è (generalmente) richiesto per prevenire casi di Heywood / negatività). E inoltre, anche tale ottimizzatoΨ o p t Ψ s t d Ψ s t d = α 2 D s m c α 1 α < 1 α 2 Ψ s t dΨ o p t Ψ o p tΨΨoptΨstdΨstd=α2Dsmcα1α<1 α2non garantirebbe il rango minimo delle restanti covarianze, quindi di solito questo non è uguale: in generale . Trovare davvero è un gioco molto difficile, e per quanto ne so (ma non è più così "lontano" come, diciamo, 20 anni fa quando ero più coinvolto e più vicino ai libri) questo è ancora un problema irrisolto. ΨstdΨopt
Ψopt


Bene, questo riflette il lato matematico ideale del problema, e la mia distinzione tra e potrebbe anche essere in realtà piccola. Un avvertimento più generale è che discute l'intero meccanismo di fattorizzazione dal punto di vista che studio solo il mio campione o ho dati di tutta la popolazione ; nel modello di statistica inferenziale, dove desumo da un campione imperfetto sulla popolazione, la mia covarianza empirica - e quindi anche la factormatrix è solo una stima, è solo l'ombra della "vera" covarianza / factormatrix. Pertanto, in un tale quadro / modello dovremmo anche considerare che i nostri "errori" non sono ideali Ψ o p t ΨΨstdΨopte quindi potrebbe essere falsamente correlato. Quindi in effetti in tali modelli dovremmo / lasceremmo alle spalle l'assunto in qualche modo idealistico di errore non correlato, e quindi di una forma strettamente diagonale di .Ψ


Ciao, non sono sicuro di poter seguire pienamente le tue osservazioni qui. Capisco correttamente che per intendi una tale matrice diagonale con elementi positivi che ha il rango più basso possibile (dove è la matrice cov / corr)? Penso che per la generale di dimensioni questo rango più basso possibile non sia molto più piccolo di (forse o qualcosa del genere), quindi trovare non sembra molto interessante. Stavo basando la mia risposta sul presupposto che FA cercasse di trovare e (di dimensione per un dato C - Ψ o p t C C n × n n n - 1 Ψ o p t Ψ W n × k k C - W W - Ψ ΨoptCΨoptCCn×nnn1ΨoptΨWn×kk) per ridurre a icona. CWWΨ
ameba dice di reintegrare Monica il

La differenza dei punti di vista potrebbe essere basata sull'ordine dei passaggi per risolvere il problema per stimare due parametri che dipendono anche l'uno dall'altro. Nella mia osservazione, inizio con il punto, che esiste un per il quale il rango rimanente, diciamo , di è minimo e , mentre potrebbe essere che abbiamo un certo numero di fattori con in mente . Se quindi alla posizione minima, qualsiasi numero di fattori tagliati da destra rimuove solo la covarianza minima (parziale). ... rΨoptr | | C - W r W r | | = 0 kC=CΨopt||CWrWr||=0kW r r + 1 - kk<rWrr+1k
Gottfried Helms il

(...) Se invece inizi con , ha in generale almeno un rango in più e quindi il numero di fattori s avrà . Quindi trovare la minima quantità possibile di covarianza rimovibile tagliando fattori (anche dopo la rotazione di alcuni criteri come pc o minres) deve essere non ottimale. Dichiarazione di non responsabilità : questa è ancora un'ipotesi - è difficile trovare per le covarianze, la cui struttura non è auto-fabbricata e tutti gli esperimenti pseudocasuali con esempi auto-fabbricati sono meno affidabili dei casi empirici. C s t dΨstdCstds + 1 - k Ψ o p ts>rs+1kΨopt
Gottfried Helms,

OK, capisco quello che stai dicendo. Il mio punto è che per la maggior parte dei reali il grado di sarà quasi lo stesso di , cioè . Se uno semplicemente ruota dopo quello, questo è probabilmente quasi equivalente o molto vicino a fare PCA su e non disturbare affatto con FA. C = C - Ψ o p t C r n k W r CCC=CΨoptCrnkWrC
ameba dice di reintegrare Monica il

Vero. Bene, ho pensato di renderlo più esplicito in cui il caso "ideale" deve essere trovato da dove riduciamo ad approssimazioni praticamente calcolabili. <br> E ora ancora più a favore di PCA ;-): Consentire una correlazione spuria nell'errore (nella seconda modalità di applicazione / statistiche inferenziali) consente al risultato di avvicinarsi di nuovo a uno del tipo che è iniziato con l'estrazione del PC ...
Gottfried Helms il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.