Sono uno studente laureato in informatica. Ho fatto un'analisi esplorativa dei fattori per un progetto di ricerca. I miei colleghi (che stanno guidando il progetto) usano SPSS, mentre io preferisco usare R. Questo non ha importanza fino a quando non abbiamo scoperto una grande discrepanza tra i due pacchetti statistici.
Stiamo usando il factoring dell'asse principale come metodo di estrazione (tieni presente che sono ben consapevole della differenza tra PCA e analisi dei fattori e che non stiamo usando PCA , almeno non intenzionalmente). Da quello che ho letto, questo dovrebbe corrispondere al metodo del "asse principale" in R, e sia "asse principale di factoring" o "minimi quadrati non ponderati" in SPSS, secondo la documentazione R . Stiamo usando un metodo di rotazione obliqua (in particolare, promax ) perché prevediamo fattori correlati e stiamo interpretando la matrice del modello .
Eseguendo le due procedure in R e SPSS, ci sono grandi differenze. La matrice del modello fornisce diversi caricamenti. Sebbene ciò dia più o meno lo stesso fattore alle relazioni variabili, esiste una differenza di 0,15 tra i caricamenti corrispondenti, che sembra più di quanto ci si aspetterebbe da una diversa implementazione del metodo di estrazione e delle rotazioni del promax. Tuttavia, questa non è la differenza più sorprendente.
La varianza cumulativa spiegata dai fattori è circa del 40% nei risultati SPSS e del 31% nei risultati R. Questa è una differenza enorme, e ha portato i miei colleghi a voler usare SPSS invece di R. Non ho alcun problema, ma una differenza così grande mi fa pensare che potremmo interpretare qualcosa in modo errato, il che è un problema.
Sfumando ancora di più le acque, SPSS riporta diversi tipi di varianza spiegata quando eseguiamo il factoring dei minimi quadrati non ponderati. La percentuale di varianza spiegata per autovalori iniziali è del 40%, mentre la proporzione di varianza spiegata dalle somme di estrazione dei carichi quadrati (SSL) è del 33%. Questo mi porta a pensare che gli autovalori iniziali non siano il numero appropriato da guardare (ho il sospetto che questa sia la varianza spiegata prima della rotazione, anche se è così grande che va oltre me). Ancora più confuso, SPSS mostra anche Rotation SSL, ma non calcola la percentuale di varianza spiegata (SPSS mi dice che avere fattori correlati significa che non posso aggiungere SSL per trovare la varianza totale, il che ha senso con la matematica che ho visto). Gli SSL segnalati da R non corrispondono a nessuno di questi e R mi dice che descrive il 31% della varianza totale. Gli SSL di R corrispondono più strettamente agli SSL di rotazione. Gli autovalori di R dalla matrice di correlazione originale corrispondono agli autovalori iniziali di SPSS.
Inoltre, tieni presente che ho giocato con metodi diversi e che ULS e PAF di SPSS sembrano corrispondere al metodo PA di R più vicino.
Le mie domande specifiche:
- Quanta differenza dovrei aspettarmi tra R e SPSS con le implementazioni dell'analisi fattoriale?
- Quale delle somme di caricamenti quadrati da SPSS dovrei interpretare, autovalori iniziali, estrazione o rotazione?
- Ci sono altri problemi che potrei aver trascurato?
Le mie chiamate a SPSS e R sono le seguenti:
SPSS:
FACTOR
/VARIABLES <variables>
/MISSING PAIRWISE
/ANALYSIS <variables>
/PRINT INITIAL KMO AIC EXTRACTION ROTATION
/FORMAT BLANK(.35)
/CRITERIA FACTORS(6) ITERATE(25)
/EXTRACTION ULS
/CRITERIA ITERATE(25)
/ROTATION PROMAX(4).
R:
library(psych)
fa.results <- fa(data, nfactors=6, rotate="promax",
scores=TRUE, fm="pa", oblique.scores=FALSE, max.iter=25)