Qual è un grafico appropriato per illustrare la relazione tra due variabili ordinali?
Alcune opzioni che mi vengono in mente:
- Grafico a dispersione con jitter casuale aggiunto per fermare i punti che si nascondono l'un l'altro. Apparentemente un grafico standard - Minitab lo definisce un "diagramma di valori individuali". Secondo me può essere fuorviante in quanto incoraggia visivamente una sorta di interpolazione lineare tra livelli ordinali, come se i dati provenissero da una scala di intervallo.
- Grafico a dispersione adattato in modo tale che la dimensione (area) del punto rappresenti la frequenza di quella combinazione di livelli, piuttosto che disegnare un punto per ogni unità di campionamento. Di tanto in tanto ho visto trame simili in pratica. Possono essere difficili da leggere, ma i punti si trovano su un reticolo a spaziatura regolare che supera in qualche modo le critiche del diagramma a dispersione agitato che "intervista" visivamente i dati.
- In particolare se una delle variabili viene trattata come dipendente, un diagramma a riquadri raggruppato per i livelli della variabile indipendente. Probabilmente sembrerà terribile se il numero di livelli della variabile dipendente non è sufficientemente alto (molto "piatto" con baffi mancanti o ancora peggiori quartili crollati che rendono impossibile l'identificazione visiva della mediana), ma almeno attira l'attenzione su mediana e quartili che sono statistiche descrittive pertinenti per una variabile ordinale.
- Tabella dei valori o griglia vuota delle celle con mappa del calore per indicare la frequenza. Visivamente diverso ma concettualmente simile al grafico a dispersione con area del punto che mostra la frequenza.
Ci sono altre idee o pensieri su quali trame sono preferibili? Esistono campi di ricerca in cui alcuni grafici ordinali contro ordinali sono considerati standard? (Mi sembra di ricordare che la mappa di calore in frequenza sia diffusa nella genomica, ma sospetto che sia più spesso per nominale-vs-nominale.) Anche i suggerimenti per un buon riferimento standard sarebbero ben accetti, immagino che qualcosa da Agresti.
Se qualcuno vuole illustrare con un grafico, segue il codice R per i dati di esempio fasulli.
"Quanto è importante l'esercizio per te?" 1 = per niente importante, 2 = alquanto irrilevante, 3 = né importante né irrilevante, 4 = alquanto importante, 5 = molto importante.
"Con quale frequenza fai una corsa di 10 minuti o più?" 1 = mai, 2 = meno di una volta ogni due settimane, 3 = una volta ogni una o due settimane, 4 = due o tre volte alla settimana, 5 = quattro o più volte alla settimana.
Se sarebbe naturale trattare "spesso" come una variabile dipendente e "importanza" come una variabile indipendente, se un diagramma distingue tra i due.
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
Una domanda correlata per variabili continue che ho trovato utile, forse un utile punto di partenza: quali sono le alternative ai grafici a dispersione quando si studia la relazione tra due variabili numeriche?