Sto cercando di confrontare visivamente il modo in cui tre diverse pubblicazioni di notizie trattano argomenti diversi (determinati attraverso un modello di argomento LDA). Ho due metodi correlati per farlo, ma ho ricevuto molti feedback dai colleghi che questo non è molto intuitivo. Spero che qualcuno là fuori abbia un'idea migliore per visualizzarlo.
Nel primo grafico, mostro le proporzioni di ciascun argomento in ogni pubblicazione, in questo modo:
Questo è piuttosto semplice e intuitivo per quasi tutti quelli con cui ho parlato. Tuttavia, è difficile vedere le differenze tra le pubblicazioni. Quale giornale copre quale argomento di più?
Per arrivare a questo, ho rappresentato graficamente la differenza tra la pubblicazione con la proporzione più alta e la seconda più alta di argomenti, colorata dalla pubblicazione con la più alta. Come questo:
Quindi, l'enorme barra del calcio, ad esempio, è in realtà la distanza tra al-Ahram English e Daily News Egypt (n. 2 nella copertura calcistica), ed è colorato in rosso perché Al-Ahram è il n. 1. Allo stesso modo, le prove sono ecologiche perché Egypt Independent ha la proporzione più alta e la dimensione della barra è la distanza tra Egypt Independent e Daily News Egypt (di nuovo n. 2).
Il fatto che devo spiegare che tutto in due paragrafi è un segno abbastanza sicuro che il grafico non supera il test di autosufficienza. È difficile dire cosa stia succedendo semplicemente guardandolo.
Qualche suggerimento generale su come evidenziare visivamente la pubblicazione dominante per ciascun argomento in modo più intuitivo?
Modifica: dati con cui giocare: ecco l' dput
output di R , oltre a un file CSV .
Modifica 2: Ecco una versione preliminare della trama dei punti, con i diametri dei punti proporzionali alla proporzione dell'argomento nel corpus (che è come gli argomenti erano originariamente ordinati). Anche se devo ancora modificarlo un po 'di più, mi sembra molto più intuitivo di quello che stavo facendo prima. Grazie a tutti!