Quali sono i pericoli del calcolo delle correlazioni di Pearson (anziché di quelle tetrachoriche) per le variabili binarie nell'analisi fattoriale?


10

Faccio ricerche sui giochi educativi e alcuni dei miei progetti attuali prevedono l'utilizzo dei dati di BoardGameGeek (BGG) e VideoGameGeek (VGG) per esaminare le relazioni tra elementi di design dei giochi (ovvero "ambientati nella seconda guerra mondiale", "implica lanciare dadi" ) e le classificazioni dei giocatori di quei giochi (ovvero, punteggi su 10). Ognuno di questi elementi di design corrisponde a un tag nel sistema BGG o VGG, quindi ogni elemento è essenzialmente una variabile dicotomica. Un gioco ha 1 per ogni tag presente nel database e uno 0 per ogni tag che non è presente.

Esistono dozzine di questi tag, quindi desidero utilizzare l' analisi fattoriale esplorativa (EFA) per trovare un numero gestibile di "generi" che catturano modelli nella progettazione del gioco. Consultando diverse fonti, capisco che dal momento che sto lavorando con variabili dicotomiche , dovrei usare le correlazioni policoriche ( tetrachoriche , in particolare qui) invece di quelle di Pearson quando si presentano i miei fattori (ci sono anche altre opzioni, come l'analisi dei tratti latenti— là fuori, ma questo è quello che sto esplorando per ora).

Per curiosità, ho escogitato due serie di fattori, uno usando le correlazioni di Pearson e l'altro usando le correlazioni policoriche (stesso numero di fattori ogni volta). Il mio problema è che i fattori calcolati usando le correlazioni di Pearson hanno molto più senso e sono più facili da interpretare rispetto ai fattori calcolati usando le correlazioni policoriche. In altre parole, i "generi" della prima serie di fattori hanno un senso intuitivo e corrispondono alla mia comprensione di come i giochi sono tipicamente progettati; questo non è il caso della seconda serie di fattori.

Da un lato, voglio essere sicuro di soddisfare i presupposti dei test che sto utilizzando, anche se ciò rende i miei risultati meno belli. Dall'altro, ritengo che parte dell'obiettivo dell'analisi fattoriale e (più in generale) della costruzione di modelli sia quello di trovare qualcosa di utile, e le informazioni più utili stanno emergendo quando sto "infrangendo le regole". La necessità di un modello utile è sufficiente per superare le violazioni dei presupposti di questo test? Quali sono esattamente le conseguenze dell'utilizzo delle correlazioni di Pearson anziché di quelle policiciche?


1
I presupposti della sottostante normalità multivariata sono così forti con i dati di più di tre o più dimensioni che le correlazioni policoriche smettono di avere così tanto senso. Il grado di errata specificazione del modello con correlazioni policoriche rende molto probabilmente la tua analisi piuttosto inutile. Non sono sicuro del motivo per cui hai bisogno di tali correlazioni in primo luogo, tuttavia: se hai una chiara variabile di risultato (valutazione) e un mucchio di variabili esplicative (caratteristiche di progettazione), hai bisogno dell'analisi di regressione, non dell'analisi dei fattori.
StasK il

L'analisi di regressione di @StasK è il mio obiettivo finale, ma ho oltre 100 variabili esplicative e vorrei ridurlo a un numero più gestibile.
Spencer Greenhalgh,

Inoltre, per tali problemi la classificazione è un obiettivo in sé.
Pere

Risposte:


7

L'analisi del fattore lineare è teoricamente , logicamente, solo per variabili continue . Se le variabili non sono continue ma sono, ad esempio, dicotomiche, un modo per te è quello di ammettere dietro le variabili continue sottostanti e dichiarare che le variabili osservate sono quelle sottostanti o vere. Non è possibile quantificare una variabile dicotomica in una scala senza un "tutor" estraneo, ma è ancora possibile inferire le correlazioni che sarebbero se le variabili non fossero state ancora raggruppate e fossero state distribuite in modo continuo "originale". E questo è il tetracoricocorrelazioni (o policoriche, se al posto del binario si hanno variabili ordinali). Quindi, usare le correlazioni tetrachoriche (correlazioni di Pearson inferite) al posto delle correlazioni Phi (correlazioni di Pearson osservate con dati dicotomici) è un atto logico.

r=1rr, ma nelle variabili dicotomiche questo effetto è più acuto perché troppo pochi valori da assumere.) Quindi, le correlazioni phi nella loro matrice possono essere viste come diseguali deflazionate a causa della distribuzione marginale contrastante nelle variabili dicotomiche; non sai se una correlazione è più grande di un'altra "veramente" o a causa dei diversi punti di taglio in queste due coppie di variabili. Il numero di fattori da estrarre (secondo i seguenti criteri come "autovalore> 1" di Kaiser) sarà gonfiato: alcuni "fattori" estratti sono il risultato dell'irregolarità, la diversità dei punti di taglio, - non fattori latenti sostanziali. Questo è il motivo pratico per cui non usare le correlazioni phi (almeno nella loro forma grezza - non ridimensionata).

È stato dimostrato negli studi di simulazione / binning che l'analisi fattoriale basata su correlazioni tetrachoriche peggiora se ci sono molte correlazioni forti (> 0,7) nella matrice. La correlazione tetrachorica non è l'ideale: se i punti di taglio delle variabili sottostanti correlate sono opposti (e quindi le distribuzioni marginali nel dicotomico sono distorte in modo opposto) mentre l'associazione sottostante è forte, il coefficiente tetrachorico lo sopravvaluta ulteriormente. Si noti inoltre che la matrice di correlazione tetrachorica non è necessariamente semidefinita positiva in campioni non grandi e potrebbe quindi necessitare di correzione ("smoothing"). Tuttavia, è considerato da molti un modo migliore rispetto all'analisi dei fattori sui coefficienti di Pearson (phi).

Ma perché fare l' analisi dei fattori sui dati binari? Esistono altre opzioni, tra cui tratto latente / IRT (una forma di analisi fattoriale "logistica") e analisi di corrispondenza multipla (se vedi le variabili binarie come categorie nominali).

Guarda anche:

  • Ipotesi di analisi lineare dei fattori.
  • rr

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.