Di solito faccio le mie scelte idiosincratiche quando preparo le trame. Tuttavia, mi chiedo se ci siano delle migliori pratiche per la generazione di grafici.
Nota: il commento di Rob a una risposta a questa domanda è molto rilevante qui.
Di solito faccio le mie scelte idiosincratiche quando preparo le trame. Tuttavia, mi chiedo se ci siano delle migliori pratiche per la generazione di grafici.
Nota: il commento di Rob a una risposta a questa domanda è molto rilevante qui.
Risposte:
I principi di Tufte sono ottime pratiche nella preparazione dei grafici. Vedi anche il suo libro Beautiful Evidence
I principi includono:
Il termine da cercare è Visualizzazione informazioni
SO
: stackoverflow.com/questions/6973394/…
Potremmo rimanere qui tutto il giorno a indicare le migliori pratiche, ma dovresti iniziare leggendo Tufte. La mia raccomandazione principale:
Mantienilo semplice.
Spesso le persone cercano di caricare i loro grafici con informazioni. Ma dovresti davvero avere un'idea principale che stai cercando di trasmettere e se qualcuno non riceve il tuo messaggio quasi immediatamente, allora dovresti ripensare a come lo hai presentato. Quindi non iniziare a lavorare sul tuo grafico fino a quando il messaggio stesso non è chiaro. Il rasoio di Occam si applica anche qui.
Una regola empirica che non seguo sempre ma che a volte è utile è tenere conto del fatto che è probabile che la trama a un certo punto nel suo futuro sarà
Devi cercare di chiarire abbastanza le tue trame che, anche se in futuro saranno riprodotte in modo impreciso, le informazioni che la trama sta cercando di trasmettere sono ancora leggibili.
Oltre a trasmettere un messaggio chiaro, cerco sempre di ricordare la trama:
Ho configurato il mio software di stampa (matplotlib, ROOT o root2matplotlib) per fare la maggior parte di questo diritto di default. Prima stavo usando gnuplot
che necessitava di cure extra qui.
Nel campo della fisica esiste una regola secondo cui l'intero documento / report dovrebbe essere comprensibile solo da una rapida occhiata ai grafici. Quindi consiglierei principalmente che dovrebbero essere autoesplicativi.
Ciò implica anche che devi sempre verificare se il tuo pubblico ha familiarità con una sorta di trama: una volta avevo commesso un grosso errore supponendo che ogni scienziato sapesse quali sono i grafici a scatole, e poi ho perso un'ora a spiegarlo.
Ecco le mie linee guida, basate sugli errori più comuni che vedo (oltre a tutti gli altri punti positivi citati)
Dai un'occhiata alla libreria grafica R, ggplot2. I dettagli sono disponibili all'indirizzo http://had.co.nz/ggplot2/ Questo pacchetto genera trame predefinite molto buone, che seguono i principi di Tufte, le linee guida di Cleveland e il pacchetto di colori di Ihaka.
Se si stampa a colori, considerare che le persone daltoniche potrebbero avere difficoltà a distinguere gli elementi in base al solo colore. Così:
Questi sono suggerimenti meravigliosi. Abbiamo assemblato molto materiale su http://biostat.mc.vanderbilt.edu/StatGraphCourse . Un gruppo di statistici dell'industria farmaceutica, del mondo accademico e della FDA sta anche creando una risorsa che sarà molto utile per gli studi clinici e la ricerca correlata. Molto nuovo materiale sarà svelato tra un mese ma molto è già lì - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph
Il mio libro di grafica preferito personale è Elements of Graphing Data di William Cleveland.
In termini di software, secondo me è difficile battere i pacchetti ggplot2 e reticolo di R. Stata supporta anche alcuni elementi grafici eccellenti.
Dipende anche da dove non vuoi pubblicare i tuoi grafici. Ti risparmierai un sacco di problemi consultando la guida per gli autori prima di fare trame per un diario.
Salvare anche i grafici in un formato facile da modificare o salvare il codice utilizzato per crearli. È probabile che sia necessario apportare correzioni.
Non usare trame di dinamite: http://pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.html , usare trame di violino o simili (famiglia di trame box)
Le altre risposte sono troppo formali per essere convincenti, quindi lasciatemi dare una risposta più generale. Ho lottato con questa domanda per un po '. Offro questo processo:
Sono scettico nei confronti di affermazioni generali come "keep it simple" - cosa significa? Bene, dipende dal pubblico. Alcuni spettatori mangeranno lo stile Tufte. Ma alcuni spettatori apprezzano di tanto in tanto un po 'di ciarpame grafico. Alcune persone sono annoiate da grafici a dispersione. Ad alcune persone piacciono gli sfondi colorati. È così sbagliato coinvolgerli un po 'anche se si compromette la purezza "estetica"? Sta a te decidere.
La reazione del pubblico sarà un feedback importante, ma non l'unico. Se trovi un modo per misurare la loro comprensione prima e dopo la presentazione, inizierai a capire l'impatto che hai avuto.
La risposta "giusta" dipenderà da questo tipo di domande:
Quale supporto utilizzerai?
Stai creando grafici statici o interattivi?
Stai cercando di raccontare una storia predefinita (esposizione) o incoraggiare la sperimentazione (esplorazione)?
In che misura vuoi che il pubblico tragga le proprie conclusioni?
In che misura desideri che il pubblico segua e sia convinto della tua storia?
In che misura desideri che il pubblico metta alla prova le tue scoperte?
In sintesi, progetta i tuoi materiali deliberatamente dato il tuo messaggio, pubblico e vincoli.
Una cosa che mi sembra di ricordare che Tufte abbia menzionato, che non è nelle altre risposte, è la mappatura , ovvero la posizione, la direzione, le dimensioni, ecc. Sul grafico rappresentano la realtà . Ciò che è nel grafico dovrebbe essere nel mondo reale. Ciò che è grande dovrebbe essere grande (tenendo presente che le aree dovrebbero rappresentare aree e volumi di volumi. Non tentare mai di rappresentare un valore scalare di un'area, è altamente ambiguo!). Questo vale anche per colori, forme, ecc., Se rilevanti.
Un esempio interessante è il grafico "serie gonna" qui: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Mentre tecnicamente è corretto, ed una lunghezza gonna "alto" occupa una posizione più alta del grafico, in realtà molto confusa, perché gonna parte dalla parte superiore , e va verso il basso (differenza di esseri umani, o alberi, dove si misura l'altezza dal terra). Quindi una maggiore lunghezza della gonna rappresenta in realtà un valore inferiore :
skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))
Ci sono, come sempre, difficoltà. Ad esempio, generalmente consideriamo il tempo per andare avanti e, almeno in occidente, leggiamo da sinistra a destra, quindi i grafici delle serie temporali di solito scorrono da sinistra a destra quando il tempo aumenta. Quindi cosa succede se vuoi rappresentare qualcosa che è meglio rappresentato lateralmente (ad esempio misurazioni est-ovest di qualcosa), nel tempo? In tal caso, devi scendere a compromessi e ritrarre il tempo in uno spostamento verso l'alto o verso il basso (che dipende ancora una volta dalle percezioni culturali, immagino), oppure scegliere di mappare la variabile laterale su / giù sul grafico.
Dipende dal modo in cui verranno discusse le trame.
Ad esempio, se invio grafici per una riunione di gruppo che verrà eseguita con chiamanti da diverse posizioni, preferisco metterli insieme in Powerpoint rispetto a Excel, quindi è più facile capovolgere.
Per le chiamate tecniche one-to-one, inserirò qualcosa in Excel in modo che il client sia in grado di spostare un diagramma e visualizzare i dati non elaborati. Oppure, posso inserire i valori p nelle celle lungo i coefficienti di regressione laterale, ad es
Ricorda: le trame sono economiche, soprattutto per una presentazione o per l'invio tramite e-mail a un gruppo. Preferirei fare 10 grafici chiari che possiamo sfogliare rispetto a 5 grafici in cui provo a mettere distinte coorti (ad esempio "maschi e femmine") sullo stesso grafico.
Aggiungerei che la scelta della trama dovrebbe riflettere il tipo di test statistico utilizzato per analizzare i dati. In altre parole, qualsiasi caratteristica dei dati sia stata utilizzata per l'analisi dovrebbe essere mostrata visivamente, quindi mostreresti mezzi ed errori standard se avessi usato un test t, ma i grafici a scatole se avessi usato un test di Mann-Whitney.