L'analisi tradizionale (lineare) della PCA e dei fattori richiede dati a livello di scala (intervallo o rapporto). Spesso si presume che i dati di classificazione di tipo likert siano a livello di scala, poiché tali dati sono più facili da analizzare. E a volte la decisione è giustificata statisticamente, specialmente quando il numero di categorie ordinate è maggiore di 5 o 6. (Sebbene puramente logicamente la domanda sul tipo di dati e il numero di livelli di scala sono distinti).
Cosa succede se si preferisce trattare la scala politomica del likert come ordinale, però? O hai dati dicotomici? È possibile effettuare analisi esplorative dei fattori o PCA per loro?
Esistono attualmente tre approcci principali per eseguire la FA (incluso PCA come caso speciale) su variabili ordinali o binarie categoriche (leggi anche questo resoconto sul caso di dati binari e questa considerazione su cosa si potrebbe fare con la scala ordinale).
Approccio di ridimensionamento ottimale (una famiglia di applicazioni ). Chiamato anche categorico PCA (CatPCA) o FA non lineare. In CatPCA, le variabili ordinali vengono trasformate monotonicamente ("quantificate") nelle loro versioni di intervallo "sottostante" con l'obiettivo di massimizzare la varianza spiegata dal numero selezionato di componenti principali estratti da tali dati di intervallo. Ciò rende il metodo apertamente guidato dagli obiettivi (piuttosto che dalla teoria) e importante decidere in anticipo il numero di componenti principali. Se è necessario un vero FA invece del PCA, è possibile eseguire naturalmente il normale FA lineare su quelle variabili trasformate emesse da CatPCA. Con le variabili binarie, CatPCA (purtroppo?) Si comporta come al solito PCA, cioè come se fossero variabili continue. CatPCA accetta anche variabili nominali e qualsiasi combinazione di tipi di variabili (piacevole).
Approccio variabile sottostante dedotto . Conosciuto anche come PCA / FA eseguito su correlazioni tetrachoriche (per dati binari) o polichoriche (per dati ordinali). Si presuppone una distribuzione normale per la variabile continua sottostante (quindi integrata) per ogni variabile manifest. Quindi si applica la FA classica per analizzare le suddette correlazioni. L'approccio consente facilmente una combinazione di dati binari, di intervallo, ordinali. Uno svantaggio dell'approccio è che - nel dedurre le correlazioni - non ha indizi sulla distribuzione multivariata delle variabili sottostanti, - può "concepire" al massimo distribuzioni bivariate, quindi non si basa su informazioni complete.
Approccio alla teoria della risposta agli oggetti (IRT). A volte chiamato anche FA logistico o analisi del tratto latente . Viene applicato un modello molto vicino al logit binario (per i dati binari) o alle quote del log proporzionale (per i dati ordinali). L'algoritmo non è legato alla decomposizione di una matrice di correlazione, quindi è un po 'lontano dalla FA tradizionale, tuttavia è una FA categorica categorica. I "parametri di discriminazione" corrispondono strettamente ai caricamenti di AF, ma le "difficoltà" sostituiscono la nozione di "unicità" di AF. La certezza dell'adattamento dell'IRT diminuisce rapidamente con l'aumentare del numero di fattori, il che rappresenta un aspetto problematico di questo approccio. L'IRT è estendibile a modo suo per incorporare variabili miste intervallo + binario + ordinale e possibilmente nominali.
I punteggi dei fattori negli approcci (2) e (3) sono più difficili da stimare rispetto ai punteggi dei fattori nella FA classica o nell'approccio (1). Tuttavia, esistono diversi metodi (metodi aposteriori previsti o massimi, metodo della massima verosimiglianza, ecc.).
I presupposti del modello di analisi fattoriale sono principalmente gli stessi nei tre approcci della FA tradizionale. Approach (1) è disponibile in R, SPSS, SAS (secondo me). Gli approcci (2) e (3) sono implementati principalmente in pacchetti specializzati a latente variabile - Mplus, LISREL, EQS.
Approccio polinomiale. Questo non è stato ancora completamente sviluppato. I componenti principali possono essere modellati come combinazioni polinomiali di variabili (l' uso dei polinomi è un modo popolare per modellare gli effetti non lineari dei regressori ordinali). Inoltre, le categorie osservate a loro volta possono essere modellate come manifestazioni discrete di combinazioni polinomiali di fattori latenti.
Esiste un campo fiorente di tecniche non lineari di riduzione della dimensionalità; alcuni di essi possono essere applicati o adottati per lavorare con dati categorici (specialmente binari o dopo la binarizzazione in un set di dati sparsi ad alta dimensione).
r
Guarda anche in questo , questo , questo , questo , questo , questo , questo , questo .