La questione delle variabili dicotomiche o binarie nell'analisi PCA o dei fattori è eterna. Ci sono opinioni polari da "è illegale" a "va bene", attraverso qualcosa come "potresti farlo ma otterrai troppi fattori". La mia opinione attuale è la seguente. In primo luogo, ritengo che la variabile osservata binaria sia descrittiva e che sia improprio trattarla in modo continuo. Questa variabile discreta può dare origine al fattore o alla componente principale?
Analisi fattoriale (FA). Il fattore per definizione è un latente continuo che carica variabili osservabili ( 1 , 2 ). Di conseguenza, quest'ultimo non può essere che continuo (o intervallo, più praticamente parlando) se sufficientemente caricato per fattore. Inoltre, FA, a causa della sua natura regressiva lineare, presume che anche la parte restante, non caricata, chiamata uniqness, sia continua, e quindi le variabili osservabili dovrebbero essere continue anche se caricate leggermente. Pertanto, le variabili binarie
non possono legiferare se stesse in FA. Tuttavia, ci sono almeno due modi per aggirare: (A) Assumere che le dicotomie man mano che le variabili sottostanti continuano a peggiorare e fare FA con correlazioni tetrachoriche piuttosto che Pearson; (B) Supponiamo che il fattore carichi una variabile dicotomica non lineare ma logisticamente e faccia l'Analisi del tratto latente (nota anche come teoria della risposta agli oggetti) invece di FA lineare. Per saperne di più .
Analisi dei componenti principali (PCA). Pur avendo molto in comune con FA, PCA non è un modello ma solo un metodo di riepilogo. I componenti non caricano le variabili nello stesso senso concettuale dei fattori che caricano le variabili. In PCA, i componenti caricano le variabili e le
variabili caricano i componenti. Questa simmetria è dovuta al fatto che PCA in sé è semplicemente una rotazione di assi-variabili nello spazio. Le variabili binarie non forniranno una vera continuità per un componente da soli - poiché non sono continue, ma la pseudocontinuità può essere fornita dall'angolo di rotazione PCA che può apparire qualsiasi. Pertanto, in PCA e in contrasto con FA, è possibile ottenere dimensioni apparentemente continue (assi ruotati) con variabili puramente binarie (assi non ruotati ) - l'angolo è la causa della continuità1 .
È discutibile se sia legale calcolare la media per le variabili binarie (se le prendi come caratteristiche veramente categoriche). Di solito la PCA viene eseguita su covarianze o correlazioni, il che implica l'inserimento del punto di rotazione della rotazione della PCA nel (1) centroide (media aritmetica). Per i dati binari, ha senso considerare, oltre a ciò, altri e più naturali per le posizioni dei dati binari per tale punto pivot o origine: (2) punto senza attributo (0,0)
(se trattate le vostre variabili come binarie "ordinali" ) ( 3) L1 o punto medoid di Manhattan, (4) punto della modalità multivariata .2
Alcune domande correlate su FA o PCA di dati binari: 1 , 2 , 3 , 4 , 5 , 6 . Le risposte lì potenzialmente possono esprimere opinioni diverse dalle mie.
1 I punteggi dei componenti calcolati nel PCA dei dati binari, come i punteggi degli oggetti calcolati nell'MCA (analisi della corrispondenza multipla) dei dati nominali, sono solo coordinate frazionarie per i dati granulari in una mappatura spaziale euclidea liscia: questi non ci consentono di concludere che il i dati categorici hanno acquisito un'autentica misurazione della scala attraverso un semplice PCA. Per avere valori di scala reali, le variabili devono essere di natura scalare dall'inizio, in input, oppure devono essere appositamente quantificate o si presume che siano state raggruppate ( vedi ). Ma nella classica PCA o MCA lo spazio per la "continuità" emerge in seguito a livello di statistiche riassuntive (come le matrici di associazione o di frequenza) a causa del fatto che la numerabilità è simile alla misurabilità, entrambe sono "quantitative". E per quelloentità di livello - per variabili come punti o categorie come punti - le loro coordinate nello spazio degli assi principali sono effettivamente valori di scala. Ma non per i punti di dati (casi di dati) di dati binari, - i loro "punteggi" sono valori pseudo continui: non misura intrinseca, solo alcune coordinate di sovrapposizione.
2 Dimostrazione di varie versioni di PCA con dati binari a seconda della posizione dell'origine della rotazione. La PCA lineare può essere applicata a qualsiasi matrice di associazione di tipo SSCP ; è la tua scelta dove mettere l'origine e se ridimensionare le magnitudini (gli elementi diagonali della matrice) sullo stesso valore (diciamo, ) oppure no. PCA presume che la matrice sia di tipo SSCP e massimizza, per componenti principali, deviazioni SS dall'origine . Naturalmente, per i dati binari (che sono limitati) le deviazioni SS dipendono semplicemente dalla frequenza osservata in questa o quella direzione oltre l'origine; ma dipende anche da dove localizziamo l'origine.1
Esempio di dati binari (solo un semplice caso di due variabili):
I grafici a dispersione di seguito mostrano i punti dati un po 'agitati (per rendere la frequenza) e mostrano gli assi dei componenti principali come linee diagonali che portano punteggi dei componenti su di essi [quei punteggi, secondo la mia affermazione sono valori pseudo continui]. Il diagramma a sinistra su ogni immagine mostra PCA basato su deviazioni "grezze" rispetto all'origine, mentre il diagramma a destra mostra PCA basato su deviazioni ridimensionate (diagonale = unità) da esso.
1) PCA tradizionale inserisce l' (0,0)
origine nella media dei dati (centroide). Per i dati binari, la media non è un possibile valore di dati. È, tuttavia, il centro di gravità fisico. PCA massimizza la variabilità al riguardo.
(Non dimenticare, inoltre, che in una variabile binaria la media e la varianza sono strettamente legate insieme, sono, per così dire, "una cosa". Standardizzare / ridimensionare le variabili binarie, cioè fare PCA sulla base di correlazioni non covarianze, in l'istanza corrente significherà che si impediscono variabili più bilanciate - avendo una varianza maggiore - per influenzare il PCA più di quanto non facciano più variabili distorte.)
2) È possibile eseguire PCA in dati non concentrati, ovvero lasciare che l'origine (0,0)
vada nella posizione (0,0)
. È PCA su X'X/n
matrice MSCP ( ) o su matrice di somiglianza del coseno. PCA massimizza la protuberabilità dallo stato senza attributo.
3) È possibile lasciare che l'origine (0,0)
risieda nel punto dati della somma più piccola delle distanze di Manhattan da esso a tutti gli altri punti dati - L1 medoid. Medoid, in genere, è inteso come il punto dati più "rappresentativo" o "tipico". Quindi, PCA massimizzerà l'atiticità (oltre alla frequenza). Nei nostri dati, il medoide L1 è caduto sulle (1,0)
coordinate originali.
4) Oppure posizionare l'origine (0,0)
sulle coordinate dei dati in cui la frequenza è la modalità multivariata più alta. È la (1,1)
cella di dati nel nostro esempio. PCA massimizzerà (sarà guidato da) le modalità junior.
5) Nel corpo della risposta è stato menzionato che le correlazioni tetrachoriche sono una questione solida su cui eseguire l'analisi dei fattori, per le variabili binarie. Lo stesso si potrebbe dire del PCA: si può fare il PCA in base alle correlazioni tetrachoriche . Tuttavia, ciò significa che stai supponendo una variabile continua sottostante all'interno di una variabile binaria.