Faccio ricerche sui giochi educativi e alcuni dei miei progetti attuali prevedono l'utilizzo dei dati di BoardGameGeek (BGG) e VideoGameGeek (VGG) per esaminare le relazioni tra elementi di design dei giochi (ovvero "ambientati nella seconda guerra mondiale", "implica lanciare dadi" ) e le classificazioni dei giocatori di quei giochi (ovvero, punteggi su 10). Ognuno di questi elementi di design corrisponde a un tag nel sistema BGG o VGG, quindi ogni elemento è essenzialmente una variabile dicotomica. Un gioco ha 1 per ogni tag presente nel database e uno 0 per ogni tag che non è presente.
Esistono dozzine di questi tag, quindi desidero utilizzare l' analisi fattoriale esplorativa (EFA) per trovare un numero gestibile di "generi" che catturano modelli nella progettazione del gioco. Consultando diverse fonti, capisco che dal momento che sto lavorando con variabili dicotomiche , dovrei usare le correlazioni policoriche ( tetrachoriche , in particolare qui) invece di quelle di Pearson quando si presentano i miei fattori (ci sono anche altre opzioni, come l'analisi dei tratti latenti— là fuori, ma questo è quello che sto esplorando per ora).
Per curiosità, ho escogitato due serie di fattori, uno usando le correlazioni di Pearson e l'altro usando le correlazioni policoriche (stesso numero di fattori ogni volta). Il mio problema è che i fattori calcolati usando le correlazioni di Pearson hanno molto più senso e sono più facili da interpretare rispetto ai fattori calcolati usando le correlazioni policoriche. In altre parole, i "generi" della prima serie di fattori hanno un senso intuitivo e corrispondono alla mia comprensione di come i giochi sono tipicamente progettati; questo non è il caso della seconda serie di fattori.
Da un lato, voglio essere sicuro di soddisfare i presupposti dei test che sto utilizzando, anche se ciò rende i miei risultati meno belli. Dall'altro, ritengo che parte dell'obiettivo dell'analisi fattoriale e (più in generale) della costruzione di modelli sia quello di trovare qualcosa di utile, e le informazioni più utili stanno emergendo quando sto "infrangendo le regole". La necessità di un modello utile è sufficiente per superare le violazioni dei presupposti di questo test? Quali sono esattamente le conseguenze dell'utilizzo delle correlazioni di Pearson anziché di quelle policiciche?