Valutare rapidamente (visivamente) le correlazioni tra i dati categorici ordinati in R?

Sto cercando correlazioni tra le risposte a diverse domande in un sondaggio ("umm, vediamo se le risposte alla domanda 11 sono correlate a quelle della domanda 78"). Tutte le risposte sono categoriche (la maggior parte di esse va da "molto infelice" a "molto felice"), ma alcune hanno un diverso insieme di risposte. Molti di essi possono essere considerati ordinali, quindi consideriamo questo caso qui.

Dato che non ho accesso a un programma di statistiche commerciali, devo usare R.

Ho provato Rattle (un pacchetto di data mining freeware per R, molto elegante) ma sfortunatamente non supporta i dati categorici. Un trucco che potrei usare è importare in R la versione codificata del sondaggio che ha numeri (1..5) invece di "molto infelice" ... "felice" e lasciare che Rattle creda che siano dati numerici.

Stavo pensando di fare un diagramma a dispersione e avere la dimensione del punto proporzionale al numero di numeri per ogni coppia. Dopo aver cercato su Google ho trovato http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/ ma mi sembra molto complicato (per me).

Non sono uno statistico (ma un programmatore) ma ho avuto qualche lettura in merito e, se avessi capito bene, il rho di Spearman sarebbe appropriato qui.

Quindi la versione breve della domanda per chi ha fretta: c'è un modo per tracciare rapidamente il rho di Spearman in R ? Una trama è preferibile a una matrice di numeri perché è più facile da guardare e può anche essere inclusa nei materiali.

Grazie in anticipo.

PS Ho riflettuto per un po 'se pubblicare questo sul sito SO principale o qui. Dopo aver cercato la correlazione R in entrambi i siti, ho ritenuto che questo sito fosse più adatto alla domanda.

r correlation categorical-data data-visualization

— wishihadabettername
fonte

Sembra che R sia inferiore al software di proprietà. :)

— Roman Luštrik,

Per me sembra del tutto ragionevole usare la correlazione prodotto-momento-perone (assumendo dati continui) nel tuo caso (assumendo abbastanza punti sulla tua scala e non un punto medio ignoto). Interi campi all'interno della psicologia (p. Es., Personalità o psicologia sociale) poggiano (con successo) sul presupposto che le risposte a un singolo elemento su una scala es. A cinque punti (o sette punti) che vanno da molto non-X a molto X possono essere trattato come continuo. Vedi anche questa discussione: stats.stackexchange.com/questions/539/…

— Henrik

@romunov: Non sono sicuro di come hai avuto l'impressione che credo che R sia inferiore ad altri s / w. Ma non è affatto così.

— wishihadabettername

Ero solo un asino intelligente. Spero non ci siano sentimenti duri. :)

— Roman Luštrik,

Risposte:

Un'altra buona visualizzazione della correlazione è offerta dal pacchetto corrplot , che offre cose come questa: testo alternativo

È un ottimo pacchetto.

Dai anche un'occhiata alla risposta qui , potrebbe essere utile saperlo.

Infine, se hai suggerimenti su come il codice sul post a cui ti riferisci potrebbe essere più semplice, per favore fatemelo sapere.

— Tal Galili
fonte

Grazie Tal, proverò subito a eseguire il complotto. Vorrei anche sapere come semplificare la tua soluzione (a cui ho collegato la domanda) ma sono solo un principiante in R, quindi sai più di me. Aggiornerò la domanda per chiarire che la soluzione mi

— wishihadabettername

La trama sembra buona. Fornisce una grande istantanea visiva delle dimensioni e della direzione delle correlazioni. Nel caso di variabili categoriali ordinate in 5 punti, potrebbe essere utile fornire qualche altra misura di associazione oltre alla correlazione di Pearson: ad esempio, correlazioni policoriche. La dimensione delle correlazioni standard di Pearson delle variabili categoriali ordinate è in qualche modo influenzata dalla media delle due variabili.

— Jeromy Anglim,

Un paio di idee per la stampa aggiuntive sono:

Trama girasole
Traccia la trama con un jitter usando la grafica di base o ggplot2

— Jeromy Anglim
fonte

Il girasole è una soluzione divertente. L'utilizzo di un jitter è ciò che ho provato la prima volta che ho esaminato l'argomento, ma ho scoperto che non era abbastanza efficace per la stampa di matrici di correlazione ...

— Tal Galili

Sì, il jitter potrebbe diventare piuttosto confuso con una matrice di dispersione con molte variabili. Suppongo che il vantaggio di jitter e girasole sia che puoi vedere i dati grezzi (anche se perturbati nel caso jitter).

— Jeromy Anglim,

D'accordo (adoro il jitter, semplicemente non per questo :))

— Tal Galili,