Come visualizzare al meglio le differenze in molte proporzioni tra tre gruppi?


18

Sto cercando di confrontare visivamente il modo in cui tre diverse pubblicazioni di notizie trattano argomenti diversi (determinati attraverso un modello di argomento LDA). Ho due metodi correlati per farlo, ma ho ricevuto molti feedback dai colleghi che questo non è molto intuitivo. Spero che qualcuno là fuori abbia un'idea migliore per visualizzarlo.

Nel primo grafico, mostro le proporzioni di ciascun argomento in ogni pubblicazione, in questo modo:

Proporzioni per tutti gli argomenti e le pubblicazioni

Questo è piuttosto semplice e intuitivo per quasi tutti quelli con cui ho parlato. Tuttavia, è difficile vedere le differenze tra le pubblicazioni. Quale giornale copre quale argomento di più?

Per arrivare a questo, ho rappresentato graficamente la differenza tra la pubblicazione con la proporzione più alta e la seconda più alta di argomenti, colorata dalla pubblicazione con la più alta. Come questo:

Differenza tra il primo e il secondo argomento più alto

Quindi, l'enorme barra del calcio, ad esempio, è in realtà la distanza tra al-Ahram English e Daily News Egypt (n. 2 nella copertura calcistica), ed è colorato in rosso perché Al-Ahram è il n. 1. Allo stesso modo, le prove sono ecologiche perché Egypt Independent ha la proporzione più alta e la dimensione della barra è la distanza tra Egypt Independent e Daily News Egypt (di nuovo n. 2).

Il fatto che devo spiegare che tutto in due paragrafi è un segno abbastanza sicuro che il grafico non supera il test di autosufficienza. È difficile dire cosa stia succedendo semplicemente guardandolo.

Qualche suggerimento generale su come evidenziare visivamente la pubblicazione dominante per ciascun argomento in modo più intuitivo?

Modifica: dati con cui giocare: ecco l' dputoutput di R , oltre a un file CSV .

Modifica 2: Ecco una versione preliminare della trama dei punti, con i diametri dei punti proporzionali alla proporzione dell'argomento nel corpus (che è come gli argomenti erano originariamente ordinati). Anche se devo ancora modificarlo un po 'di più, mi sembra molto più intuitivo di quello che stavo facendo prima. Grazie a tutti!

Dot trama


1
Ho appena aggiunto alcuni dati (per R e un CSV). Non ho ancora finito di scegliere buoni colori (da qui il rosso / verde natalizio), anche se sono consapevole dei problemi del daltonico :)
Andrew

1
La menzione di "proporzioni" è un po 'un'aringa rossa qui, poiché i dati non sono realmente proporzioni e, soprattutto, nessuna delle soluzioni grafiche finora dipende dal fatto che i dati siano proporzioni. Questo è positivo perché le soluzioni hanno rilevanza per una vasta gamma di dati, ma non essere fuorviati.
Nick Cox,

(+1) Bella domanda, compresi set di dati scaricabili e follow-up rapido!
chl

Andrew, per quanto riguarda la tua ultima modifica, penso che sarebbe meglio con le linee della griglia verticale. Creano uno schema a scacchi ma non aggiungono molto valore, supponendo che non ti interessi leggere valori precisi dal grafico.
xan,

Senza le linee verticali?
Andrew,

Risposte:


18

Grazie per aver reso i dati accessibili e per un set di dati interessante e una sfida grafica.

Il mio suggerimento principale è di un diagramma a punti (Cleveland).

inserisci qui la descrizione dell'immagine

I dettagli più importanti che vorrei sottolineare:

  1. La sovrapposizione qui consente e facilita il confronto.

  2. L'ordine degli argomenti nei display appare abbastanza arbitrario. In assenza di un ordine naturale (ad es. Tempo, spazio, una variabile ordinata) vorrei sempre ordinare su una delle variabili per fornire un framework. Quale usare potrebbe essere una questione se uno è particolarmente interessante o importante, una decisione del ricercatore. Un'altra possibilità è quella di ordinare su una certa misura le differenze tra i documenti, in modo che gli argomenti che ricevono una copertura simile siano da un lato e quelli che ricevono una copertura diversa dall'altro.

  3. I marcatori aperti o i simboli punto consentono di risolvere meglio la sovrapposizione o l'identità rispetto ai marcatori o simboli chiusi o solidi, che nel peggiore dei casi si oscurano o si nascondono a vicenda. (Un'alternativa che potrebbe funzionare abbastanza bene qui sono le lettere come A, D e I per i tre giornali.)

C'è chiaramente molto spazio per migliorare il mio design. Ad esempio, le lettere sono troppo grandi e / o troppo pesanti? D'altra parte, i titoli devono essere facilmente leggibili, altrimenti il ​​grafico rappresenta un errore.

Alcuni punti più piccoli e piccanti:

un. Il rosso e il verde sul grafico sono una combinazione di colori da evitare. Quando si usano marcatori diversi, le scelte di colore sono un po 'meno cruciali.

b. I segni di spunta orizzontali sul grafico sono fonte di distrazione. Al contrario, sono necessarie le mie linee della griglia, ma cerco di renderle discrete utilizzando linee sottili e leggere.

×

I grafici a punti Cleveland devono di più a

Cleveland, WS 1984. Metodi grafici per la presentazione dei dati: interruzioni a fondo scala, diagrammi a punti e registrazione multibased. Statistico americano 38: 270-80.

Cleveland, WS 1985. Elementi di dati grafici. Monterey, California: Wadsworth.

Cleveland, WS 1994. Elementi di dati grafici. Summit, NJ: Hobart Press.

Un precursore (più famoso statisticamente per lavori molto diversi !!!) era

Pearson, ES 1956. Alcuni aspetti della geometria della statistica: l'uso della presentazione visiva per comprendere la teoria e l'applicazione della statistica matematica. Diario della Royal Statistical Society A 119: 125-146.

Per gli interessati, il grafico è stato preparato in Stata dopo aver letto il codice .csv

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color) 

È fantastico, grazie! Le percentuali purtroppo non si sommano a nulla perché i valori sono mezzi standardizzati da un ampio corpus di documenti (cioè ogni documento in ogni pubblicazione è costituito da una combinazione dei 20 argomenti, scoperti da LDA - questo mostra i mezzi normalizzati ... da qui il piccoli numeri)
Andrew

Inoltre, gli argomenti sono ordinati in base alla loro proporzione nel corpus. La governance egiziana è l'argomento che appare più comunemente, mentre l'argomento vario è l'argomento più raro. Ma usare questo ordine qui rende i punti / simboli leggermente più difficili da seguire visivamente.
Andrew

Questo è fantastico! Grazie! Ho aggiornato il post originale per riflettere i tuoi suggerimenti e aggiungere proporzioni corpus.
Andrew

(+6) Bella risposta! Ed è sempre bello avere riferimenti e codice riproducibile.
chl

@chl Mille grazie per i commenti di apprezzamento e la reputazione extra.
Nick Cox,

14

Il diagramma a punti di Nick Cox è probabilmente il migliore per il quadro completo. Se vuoi davvero enfatizzare la prima relazione rispetto alla seconda, ecco una modifica al tuo grafico che compensa la barra delle differenze con la lunghezza della seconda barra.

inserisci qui la descrizione dell'immagine

E per una diversa visione d'insieme, puoi provare qualcosa come un diagramma di pendenza o un grafico di coordinate parallele. Le linee potrebbero essere un po 'troppo affollate qui, ma potrebbe funzionare se si desidera evidenziare un sottoinsieme degli argomenti.

inserisci qui la descrizione dell'immagine

Inoltre, potresti provare helpmeviz.com che è orientato verso domande molto specifiche su questo tipo di dati.


Interessante! Punto minuto: il titolo dell'asse o l'etichetta "proporzione" non corrispondono alle unità di%.
Nick Cox,

Ooh, questo è davvero interessante. Giocherò con questo per vedere se può integrare la tabella dei punti.
Andrew

2

Il mio primo istinto fu di suggerire una trama a mosaico ; rappresenta graficamente ciascuna sottocategoria come un rettangolo, in cui una dimensione rappresenta il conteggio totale per la categoria principale e l'altra dimensione rappresenta la quota proporzionale della sottocategoria. C'è un pacchetto R per disegnarli , ma è anche abbastanza semplice da fare con strumenti grafici di livello inferiore.

Tuttavia, i grafici a mosaico (come i grafici a barre impilati basati su percentuale) funzionano meglio se nella dimensione sono presenti solo 2 o 3 categorie in cui si desidera confrontare le proporzioni. Quindi funzionerebbero bene se si volesse confrontare le differenze tra gli argomenti nella proporzione di articoli presenti in ciascuno dei tre giornali , ma non tanto per l'uso previsto, confrontando le differenze tra tre giornali nella proporzione di copertura per ciascun argomento . Una distinzione sottile ma importante!

Per quello che vuoi enfatizzare, penso che il grafico più efficace sia uno dei più semplici: un grafico a barre raggruppato. Più persone capiscono i grafici a barre rispetto ai grafici a punti; a colpo d'occhio, puoi vedere che stai confrontando quantità di dimensioni diverse e i valori che vuoi confrontare sono fianco a fianco.

Tuttavia, se si desidera davvero enfatizzare le differenze in proporzione, è possibile creare un grafico a barre raggruppato personalizzato, modificato per posizionare ciascun gruppo in modo che il valore mediano per categoria sia allineato con l'asse, anziché i valori zero:

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

Si noti che le barre in ciascun gruppo sono ancora allineate per un facile confronto delle dimensioni e che la linea di base di ciascun gruppo è ora posizionata a sinistra dell'asse in base al valore mediano di quel gruppo, mentre le barre che proiettano a destra dell'asse sono equivalenti al secondo grafico a barre che mostra la differenza tra le prime due categorie.

Indipendentemente dal fatto che utilizzi un grafico a barre raggruppato standard o un grafico con correzione dell'offset come sopra, potresti comunque prendere un'idea dai grafici a mosaico e rendere la larghezza di ogni barra proporzionale al conteggio totale degli articoli per quel giornale (quindi la dimensione di la barra è proporzionale al numero di articoli in quel giornale in quella categoria).

Poiché la statistica del test è una proprietà di ogni confronto , non dei singoli valori, non credo sia utile ridimensionare ogni punto di dati in base al significato. Invece, avrei un'icona accanto a ciascun gruppo che rappresenta il significato. Per la pubblicazione accademica, lo standard */ **/ ***ha il vantaggio della familiarità, ma potresti essere creativo se volessi mostrare il continuum completo della statistica.


L'idea principale qui è quella di raggruppare le barre verticalmente. È un design ampiamente usato, ma implica 60 barre in verticale anziché 20 nell'originale del poster. Anche se puoi chiaramente modificare la larghezza della barra, penso che avrai bisogno di più spazio per farlo bene in questo caso, specialmente se vuoi aggiungere spazio tra i gruppi.
Nick Cox,

@NickCox Questo è un aspetto negativo rispetto al grafico originale più compatto, anche se è possibile ruotare l'intero grafico di 90 gradi se una figura orientata al paesaggio si adatta al layout generale.
AmeliaBR,

Potresti, ma anche 60 barre sono difficili da sinistra a destra e 20 etichette come "Fratellanza e politica musulmana" dovrebbero rimanere leggibili ...
Nick Cox,

Potresti riuscire a farlo funzionare disponendo le barre in un gruppo l'una sopra l'altra anziché affiancate. Difficile a dirsi senza vedere un mockup (e la mia arte ASCII non è molto brava a trasmettere aspetto e aspetto). Sarebbe meno intuitivo poiché non è una struttura così familiare e potrebbe creare confusione se due barre hanno quasi la stessa altezza. Ma se l'alternativa sono le barre larghe di un pixel ...
AmeliaBR

Quindi, ti stai avvicinando al suggerimento nella mia risposta di un diagramma a punti.
Nick Cox,

1

Hai provato un grafico a bolle? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

I singoli argomenti potrebbero essere cerchie e ogni cerchia potrebbe essere un grafico a torta della percentuale che ogni notizia tratta dell'argomento. La dimensione del cerchio potrebbe indicare la copertura relativa dell'argomento. ad esempio se vengono scritti più articoli sull'olio che sulla cultura, il cerchio dell'olio ha un diametro maggiore.


[X,Y]

1
@NickStauner Non ho visto la domanda modificata con il set di dati quando ho risposto inizialmente. Le coordinate non significherebbero altro che il numero di pubblicazioni. I cerchi possono essere raggruppati per argomento o per diametro. Non so perché le percentuali siano state utilizzate in primo luogo poiché i numeri sono estremamente piccoli.
rocinante,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.