Esistono analisi fattoriali o PCA per dati ordinali o binari?


28

Ho completato l'analisi dei componenti principali (PCA), l'analisi dei fattori esplorativi (EFA) e l'analisi dei fattori di conferma (CFA), trattando i dati con una scala di likert (risposte a 5 livelli: nessuna, un po ', alcune, ..) come continua variabile. Quindi, usando Lavaan, ho ripetuto il CFA definendo le variabili come categoriche.

Vorrei sapere per quali tipi di analisi sarebbe appropriato e sarebbero equivalenti a PCA ed EFA quando i dati sono di natura ordinaria . E quando binario .

Gradirei anche suggerimenti per pacchetti o software specifici che possono essere facilmente implementati per tali analisi.

Risposte:


38

L'analisi tradizionale (lineare) della PCA e dei fattori richiede dati a livello di scala (intervallo o rapporto). Spesso si presume che i dati di classificazione di tipo likert siano a livello di scala, poiché tali dati sono più facili da analizzare. E a volte la decisione è giustificata statisticamente, specialmente quando il numero di categorie ordinate è maggiore di 5 o 6. (Sebbene puramente logicamente la domanda sul tipo di dati e il numero di livelli di scala sono distinti).

Cosa succede se si preferisce trattare la scala politomica del likert come ordinale, però? O hai dati dicotomici? È possibile effettuare analisi esplorative dei fattori o PCA per loro?

Esistono attualmente tre approcci principali per eseguire la FA (incluso PCA come caso speciale) su variabili ordinali o binarie categoriche (leggi anche questo resoconto sul caso di dati binari e questa considerazione su cosa si potrebbe fare con la scala ordinale).

  1. Approccio di ridimensionamento ottimale (una famiglia di applicazioni ). Chiamato anche categorico PCA (CatPCA) o FA non lineare. In CatPCA, le variabili ordinali vengono trasformate monotonicamente ("quantificate") nelle loro versioni di intervallo "sottostante" con l'obiettivo di massimizzare la varianza spiegata dal numero selezionato di componenti principali estratti da tali dati di intervallo. Ciò rende il metodo apertamente guidato dagli obiettivi (piuttosto che dalla teoria) e importante decidere in anticipo il numero di componenti principali. Se è necessario un vero FA invece del PCA, è possibile eseguire naturalmente il normale FA lineare su quelle variabili trasformate emesse da CatPCA. Con le variabili binarie, CatPCA (purtroppo?) Si comporta come al solito PCA, cioè come se fossero variabili continue. CatPCA accetta anche variabili nominali e qualsiasi combinazione di tipi di variabili (piacevole).

  2. Approccio variabile sottostante dedotto . Conosciuto anche come PCA / FA eseguito su correlazioni tetrachoriche (per dati binari) o polichoriche (per dati ordinali). Si presuppone una distribuzione normale per la variabile continua sottostante (quindi integrata) per ogni variabile manifest. Quindi si applica la FA classica per analizzare le suddette correlazioni. L'approccio consente facilmente una combinazione di dati binari, di intervallo, ordinali. Uno svantaggio dell'approccio è che - nel dedurre le correlazioni - non ha indizi sulla distribuzione multivariata delle variabili sottostanti, - può "concepire" al massimo distribuzioni bivariate, quindi non si basa su informazioni complete.

  3. Approccio alla teoria della risposta agli oggetti (IRT). A volte chiamato anche FA logistico o analisi del tratto latente . Viene applicato un modello molto vicino al logit binario (per i dati binari) o alle quote del log proporzionale (per i dati ordinali). L'algoritmo non è legato alla decomposizione di una matrice di correlazione, quindi è un po 'lontano dalla FA tradizionale, tuttavia è una FA categorica categorica. I "parametri di discriminazione" corrispondono strettamente ai caricamenti di AF, ma le "difficoltà" sostituiscono la nozione di "unicità" di AF. La certezza dell'adattamento dell'IRT diminuisce rapidamente con l'aumentare del numero di fattori, il che rappresenta un aspetto problematico di questo approccio. L'IRT è estendibile a modo suo per incorporare variabili miste intervallo + binario + ordinale e possibilmente nominali.

I punteggi dei fattori negli approcci (2) e (3) sono più difficili da stimare rispetto ai punteggi dei fattori nella FA classica o nell'approccio (1). Tuttavia, esistono diversi metodi (metodi aposteriori previsti o massimi, metodo della massima verosimiglianza, ecc.).

I presupposti del modello di analisi fattoriale sono principalmente gli stessi nei tre approcci della FA tradizionale. Approach (1) è disponibile in R, SPSS, SAS (secondo me). Gli approcci (2) e (3) sono implementati principalmente in pacchetti specializzati a latente variabile - Mplus, LISREL, EQS.

  1. Approccio polinomiale. Questo non è stato ancora completamente sviluppato. I componenti principali possono essere modellati come combinazioni polinomiali di variabili (l' uso dei polinomi è un modo popolare per modellare gli effetti non lineari dei regressori ordinali). Inoltre, le categorie osservate a loro volta possono essere modellate come manifestazioni discrete di combinazioni polinomiali di fattori latenti.

  2. Esiste un campo fiorente di tecniche non lineari di riduzione della dimensionalità; alcuni di essi possono essere applicati o adottati per lavorare con dati categorici (specialmente binari o dopo la binarizzazione in un set di dati sparsi ad alta dimensione).

  3. r

Guarda anche in questo , questo , questo , questo , questo , questo , questo , questo .


3
Risposta fenomenale. L'unica cosa da aggiungere è che penso che tu possa usare il pacchetto psichico in R per implementare approcci in (2) (vedi l'opzione "cor" per la funzione fa) e (3) (vedi le funzioni irt.fa e irt.poly ) in vari gradi e il pacchetto ltm può anche essere utilizzato per adattarsi a numerosi modelli IRT.
jsakaluk,

1
Possono differire così. Ho fatto più volte la creazione / convalida dell'inventario tramite "FA non lineare" (CatPCA-then-EFA) e ho trovato risultati migliori del solito (lineare) EFA. La procedura che ho adottato era simile al solito FA, l'unica differenza era quella per ogni analisi - ogni serie di elementi che provo e ogni numero di fattori che estraggo - ho fatto CatPCA-then (sulle variabili quantificate) -EFA pas de deux .
ttnphns

@jsakaluk, Grazie mille per l'informazione. (Non sono un utente R, quindi solo poco conosco la sua capacità fenomenale).
ttnphns,

Grazie per risposte così approfondite. @ttnphns Ho trascorso la maggior parte di oggi cercando di implementare CATPCA in SPSS 23. Sono riuscito a individuare due tutorial (Linting & Kooij (2012) e unt.edu/rss/class/Jon/SPSS_SC/Module9/M9_CATPCA/… ) ancora non sono riuscito a rispondere ad alcune mie domande. Potresti suggerire un buon punto vendita per affrontare alcune domande tecniche? Grazie ancora.
user116948

1
@ user116948, se hai problemi a capire come lavorare con SPSS: Prima di tutto, trova e leggi il case study CATPCA nel sottomenu SPSS Case Studies nel menu Help. In secondo luogo, sfoglia tutte le domande su CATPCA già poste su questo sito. Terzo: se hai ancora domande, ponilo come nuova domanda sul sito. Non preoccuparti: se è "troppo tecnico", potrebbe essere trasferito su StackOveflow. Forth: scegli una community SPSS per porre la tua domanda (SPSSXL è il migliore). Saluti a te.
ttnphns,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.