I migliori metodi di estrazione dei fattori nell'analisi dei fattori


29

SPSS offre diversi metodi di estrazione dei fattori:

  1. Componenti principali (che non è affatto un'analisi fattoriale)
  2. Minimi quadrati non ponderati
  3. Minimi quadrati generalizzati
  4. Probabilità massima
  5. Asse principale
  6. Factoring alfa
  7. Factoring di immagine

Ignorando il primo metodo, che non è l'analisi dei fattori (ma l'analisi dei componenti principali, PCA), quale di questi metodi è "il migliore"? Quali sono i vantaggi relativi dei diversi metodi? E fondamentalmente, come sceglierei quale usare?

Domanda aggiuntiva: si dovrebbero ottenere risultati simili da tutti e 6 i metodi?


Hmm, il mio primo impulso: non c'è una voce di Wikipedia su questo? In caso contrario - sicuramente dovrebbe esistere uno ...
Gottfried Helms

4
Sì, c'è un articolo di Wikipedia. Dice di usare MLE se i dati sono normali e PAF altrimenti. Non dice molto sui meriti o meno delle altre opzioni. In ogni caso, sarei felice di sapere cosa ne pensano i membri di questo sito su questo problema, in base alla loro esperienza pratica.
Placidia,

Risposte:


41

Per farla breve. Gli ultimi due metodi sono ognuno molto speciale e diverso dai numeri 2-5. Sono tutti chiamati analisi dei fattori comuni e sono effettivamente visti come alternative. Il più delle volte, danno risultati piuttosto simili . Sono "comuni" perché rappresentano il modello di fattore classico , i fattori comuni + modello di fattori unici. È questo modello che viene generalmente utilizzato nell'analisi / validazione del questionario.

Principal Axis (PAF) , noto anche come Principal Factor con iterazioni, è il metodo più antico e forse ancora abbastanza popolare. È un'applicazione iterativa PCA alla matrice in cui le comunità si trovano sulla diagonale al posto di 1s o di varianze. Ogni iterazione successiva raffina ulteriormente le comunità fino a quando non convergono. In tal modo, il metodo che cerca di spiegare la varianza, non le correlazioni a coppie, alla fine spiega le correlazioni. Il metodo dell'asse principale ha il vantaggio di poter analizzare, come la PCA, non solo le correlazioni, ma anche le covarianze e altre1Misure SSCP (raw sscp, coseni). Gli altri tre metodi elaborano solo le correlazioni [in SPSS; le covarianze potrebbero essere analizzate in alcune altre implementazioni]. Questo metodo dipende dalla qualità delle stime iniziali delle comunità (ed è il suo svantaggio). Di solito la correlazione multipla quadrata / covarianza viene utilizzata come valore iniziale, ma è possibile preferire altre stime (comprese quelle tratte da ricerche precedenti). Per favore leggi questo per di più. Se vuoi vedere un esempio di calcoli di factoring sull'asse principale, commentati e confrontati con i calcoli PCA, guarda qui .

I minimi quadrati ordinari o non ponderati (ULS) sono l'algoritmo che mira direttamente a minimizzare i residui tra la matrice di correlazione di input e la matrice di correlazione riprodotta (dai fattori) (mentre gli elementi diagonali come le somme di comunanza e unicità mirano a ripristinare 1s) . Questo è il compito diretto di FA . Il metodo ULS può funzionare con una matrice di correlazioni semidefinite singolare e persino non positiva a condizione che il numero di fattori sia inferiore al suo rango, anche se è discutibile se teoricamente la FA sia appropriata.2

I minimi quadrati generalizzati o ponderati (GLS) sono una modifica del precedente. Quando minimizza i residui, pondera i coefficienti di correlazione in modo diverso: alle correlazioni tra variabili con unicità elevata (all'iterazione corrente) viene dato un peso minore . Usa questo metodo se vuoi che i tuoi fattori si adattino a variabili altamente uniche (cioè quelle indebolite dai fattori) peggiori delle variabili molto comuni (cioè fortemente guidate dai fattori). Questo desiderio non è insolito, specialmente nel processo di costruzione del questionario (almeno credo di sì), quindi questa proprietà è vantaggiosa .344

Probabilità massima (ML)presuppone che i dati (le correlazioni) provengano da una popolazione con distribuzione normale multivariata (altri metodi non assumono tale ipotesi) e quindi i residui dei coefficienti di correlazione devono essere normalmente distribuiti intorno a 0. I carichi sono stimati iterativamente dall'approccio ML in base all'assunzione di cui sopra. Il trattamento delle correlazioni è ponderato dall'unicità allo stesso modo del metodo dei minimi quadrati generalizzati. Mentre altri metodi analizzano semplicemente il campione così com'è, il metodo ML consente alcune deduzioni sulla popolazione, di solito vengono calcolati un certo numero di indici di adattamento e intervalli di confidenza insieme ad esso [purtroppo, principalmente non in SPSS, anche se le persone hanno scritto macro per SPSS che lo fanno it].

Tutti i metodi che ho brevemente descritto sono modelli latenti lineari e continui. "Lineare" implica che le correlazioni tra gradi, ad esempio, non dovrebbero essere analizzate. "Continuo" implica che i dati binari, ad esempio, non debbano essere analizzati (IRT o FA basati su correlazioni tetrachoriche sarebbero più appropriate).


1 Poiché la matrice di correlazione (o covarianza) , - dopo che le comunità iniziali sono state poste sulla sua diagonale, avrà di solito degli autovalori negativi, questi devono essere tenuti puliti; pertanto la PCA dovrebbe essere eseguita mediante decomposizione degli automi, non SVD.R

2 metodo ULS include un'egendecomposizione iterativa della matrice di correlazione ridotta, come PAF, ma all'interno di una procedura di ottimizzazione Newton-Raphson più complessa che mira a trovare varianze uniche ( , unicità) in cui le correlazioni vengono ricostruite al massimo. In questo modo ULS appare equivalente al metodo chiamato MINRES (solo i carichi estratti appaiono in qualche modo ruotati ortogonalmente rispetto a MINRES) che è noto per minimizzare direttamente la somma dei residui quadrati di correlazioni.u2

3 algoritmi GLS e ML sono fondamentalmente come ULS, ma l'autocomposizione sulle iterazioni viene eseguita su matrice (o su ), per incorporare le unicità come pesi. ML differisce da GLS nell'adottare la conoscenza dell'andamento degli autovalori previsto nella distribuzione normale.uR1uu1Ru1

4 Il fatto che le correlazioni prodotte da variabili meno comuni possano essere adattate in modo peggiore può (suppongo di si) dare spazio alla presenza di correlazioni parziali (che non devono essere spiegate), ciò che sembra carino. Il modello di fattore comune puro "non prevede" correlazioni parziali, il che non è molto realistico.

inserisci qui la descrizione dell'immagine


Penso che si dovrebbe aggiungere più aspetto: se usiamo i metodi per adattare una soluzione fattoriale a un numero presunto di fattori, o se il numero di fattori dovrebbe emergere dai dati, secondo alcuni criteri (autovalore, più discreto, ...) . A quanto ho capito, ML è sensato solo se si prespecifica una serie di fattori, quindi si cercherà una soluzione fattoriale e sarà quindi possibile anche un test chi-quadro. La PCA consente al numero di fattori di comparire dinamicamente dalle proprietà dei dati, dati alcuni criteri, nessun test chi-quadro. PAF può essere utilizzato in entrambi i modi.
Gottfried Helms,

1
@Gottfried, preferirei non essere d'accordo con il modo in cui lo metti. Tutti i metodi FA richiedono il numero di fattori m essere conosciuto: si forma il modello per m si specifica. È possibile utilizzare vari criteri che possono aiutare a decidere su m , ma tutti questi non fanno parte dei metodi di estrazione dei fattori stessi. Ad eccezione di quel chi-quadrato, calcolato insieme ai metodi GLS e ML. Inoltre, con il metodo PA, se si conoscono i veri comunalità di anticipo (che è molto di rado), si può fare loro per guidare l'utente verso la migliore m . Ma in ogni caso, sei tu, non un algoritmo di estrazione, decidi su m .
ttnphns,

Ora cosa dovremmo usare? Qual'è il migliore?
MrYouMath,

1
Il meglio è quello che ti piace di più. Scegli, quindi se necessario spieghi perché ti sta bene. Come dappertutto.
ttnphns,

@ ttnphns, esiste un principio di when to use which?
Kittygirl,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.