Le mappe di calore sono “uno dei tipi meno efficaci di visualizzazione dei dati”?


22

Domanda: Quando (per quali tipi di problemi di visualizzazione dei dati) le mappe di calore sono più efficaci? (In particolare, più efficace di tutte le altre tecniche di visualizzazione possibili?)

Quando le mappe di calore sono meno efficaci?

Esistono schemi o regole empirici comuni che è possibile utilizzare per decidere se una mappa di calore sia o meno un modo efficace di visualizzare i dati e quando è probabile che siano inefficaci?

(Principalmente ho in mente mappe di calore per 2 variabili categoriche e 1 variabile continua, ma sono anche interessato a conoscere opinioni su altri tipi di mappe di calore.)

Contesto: sto seguendo un corso online sulla visualizzazione dei dati e in questo momento stanno discutendo tipi di trama inefficaci e sovrautilizzati. Hanno già menzionato trame di dinamite e grafici a torta, e le ragioni fornite per cui quelle sono inefficaci e perché ci sono alternative migliori a loro erano chiare e convincenti per me. Inoltre, è stato facile trovare altre fonti a conferma delle opinioni espresse su grafici e grafici a torta della dinamite.

Tuttavia, il corso ha anche affermato che "le mappe di calore sono uno dei tipi meno efficaci di visualizzazione dei dati". Una parafrasi dei motivi per cui sono riportati di seguito. Ma quando ho cercato di trovare altri posti su Google a conferma di questo punto di vista, ho avuto molte difficoltà, al contrario di cercare opinioni sull'efficacia dei grafici a torta e dei grafici della dinamite. Quindi vorrei sapere fino a che punto è valida la caratterizzazione delle mappe di calore fornite nel corso e quando i fattori a loro sfavore sono meno importanti e più importanti per un dato contesto.

I motivi indicati sono stati:

  1. È difficile mappare il colore su una scala continua.

    Ci sono alcune eccezioni a questa regola, quindi di solito non è un problema, ma nel caso delle mappe di calore, il problema è particolarmente difficile, perché la nostra percezione di un colore cambia a seconda dei colori vicini. Pertanto, le mappe di calore non sono adatte per visualizzare risultati individuali, anche in piccoli set di dati. Che conduce a:

  2. Non è generalmente possibile rispondere a domande specifiche utilizzando un metodo di ricerca in una tabella, poiché è impossibile inferire con sufficiente precisione il valore numerico corrispondente a un determinato colore.

  3. Spesso i dati non sono raggruppati in modo tale da evidenziare le tendenze.

    Senza tale raggruppamento è spesso difficile o impossibile dedurre qualcosa sui modelli generali generali.

  4. Le mappe di calore sono spesso utilizzate solo per comunicare un "fattore wow" o semplicemente per apparire accattivanti, specialmente quando si utilizza un gradiente multicolore, ma di solito ci sono modi migliori per comunicare i dati.

Tracciare dati continui su una scala comune è sempre l'opzione migliore. Se esiste una componente temporale, la scelta più ovvia è una trama lineare.


15
La critica delle "mappe di calore" si riduce all'ultima riga di (4): esattamente quali sono questi "modi migliori" di comunicare? (Se non ci sono modi migliori, allora (1) - (3) sono scarsamente rilevanti.) Se lo scopo è letteralmente comunicare i dati , allora ovviamente ci sono modi migliori: annotare i numeri. Lo scopo di una visualizzazione, tuttavia, è raramente di comunicare i dati: invece, è supportare un'interpretazione o inviare un messaggio. Quali interpretazioni ha in mente la tua fonte e quali sono i modi migliori per presentare tali interpretazioni?
whuber

4
@whuber Come supplemento per questo - una cosa molto bella delle mappe di calore è che in molti casi è facile integrarle visualizzando i dati grezzi (forse arrotondati opportunamente) direttamente su ogni riquadro. Anche usare la formattazione condizionale per il colore di sfondo delle celle su un foglio di calcolo è una sorta di "mappa di calore" molto efficace e molto comune, in quale contesto è difficile vedere come possano essere migliorati.
Silverfish,

2
Il mio commento riguarda solo la critica 1. È corretto che il colore (tonalità) non si associ psicologicamente a una scala ordinata, anche se fisicamente (lunghezza d'onda). Tuttavia, aggiungendo una dimensione ridondante come la luminosità può renderli più facilmente interpretabili. Potresti avere il buio più alto della luce ma usa colori come il blu chiaro e il rosso scuro.
David Lane,

2
Dipende dal contesto. Ecco un ottimo esempio di informazioni utili e utili ottenute da una mappa di calore, per le quali non riesco a pensare a nessun altro tipo di visualizzazione dei dati più conveniente o utile.
Jason C,

5
Il colore è superfluo (e, certamente, scarsamente scelto - è solo la mappa dei colori predefinita in R), ma ecco un esempio della rappresentazione di Minesweeper che ho elaborato diversi anni fa. Ho trovato la mappa di calore immediatamente illuminante in quanto rivela la struttura del problema che diventa intuitivamente chiaro una volta che lo vedi e ci pensi per un momento, ma che non è immediatamente ovvio (per la maggior parte delle persone) prima di vedere la trama.
cardinale

Risposte:


15

Non esiste una "migliore" trama per questo o per quello. Come tracciare i tuoi dati dipende dal messaggio che vuoi trasmettere. I grafici comunemente usati hanno il vantaggio che gli utenti hanno maggiori probabilità di poterli leggere. Tuttavia, ciò non significa che siano necessariamente la scelta migliore.

Per quanto riguarda le mappe di calore, ho ordinato la mia risposta con i presunti argomenti contro di loro.

Annuncio 1) Se non ti fidi del colore come canale di codifica, usa invece la luminosità, con una scala che comprende i toni di "colore" dal grigio scuro al grigio chiaro. Molto spesso, vuoi binare variabili continue (vedi anche 5), in modo da poter mantenere basso il numero di colori e semplificare la decodifica da parte degli utenti. Questo non è un must però. Dai un'occhiata a questo esempio , in cui la variabile continua non è raggruppata.

Ad 2) Certamente, non dovrebbero essere usati come alternativa per cercare valori precisi. Le mappe di calore dovrebbero essere utilizzate principalmente per illustrare modelli, non per sostituire tabelle.

Annuncio 3 + 4) Non vedo come questo sarebbe correlato solo alle mappe di calore.

Ad 5) Le mappe di calore sono idealmente ma non necessariamente utilizzate con variabili discrete. Per le variabili continue, le mappe di calore possono essere utilizzate come una sorta di istogramma bidimensionale o grafico a barre, con binning appropriato, nonché luminosità come canale di codifica.


2
Risposta fantastica! Solo che non so cosa significhi "Annuncio". Latino? Abbreviazione?
xan,

1
Grazie! "ad" significa "on" o "concernente", suppongo che provenga dal latino.
g3o2,

Non ho mai visto neanche "annuncio" usato in quel modo (cc, @xan). Dalla tua descrizione, penso che potrei usare il ritmo .
gung - Ripristina Monica

1
Ricorda anche di correggere in gamma le tue mappe di calore basate sulla luminosità.
user253751

3
@gung Non proprio, IMO. Non ha connotazioni, a differenza del ritmo - significa solo in aggiunta, addendum, in riferimento a, per quanto riguarda ... Per non parlare del fatto che era universale in Occidente, proveniente dal latino e ampiamente utilizzato in teologia e letteratura scientifica e politica, tra altre cose. In una finestra di dialogo (posta), le due parti la userebbero per fare riferimento agli argomenti a ciascuno dei punti. Sembra che stia cadendo in disgrazia man mano che la lingua scritta viene ridotta. La solita sostituzione sta usando solo "1.1" invece di "Ad 1.1", che può essere un po 'confuso e mi sembra un po' scortese, ma vabbè.
Luaan,

5

Qualcuno non può dire che Heat Map sia il tipo di visualizzazione meno efficace. Preferirei dire che dipende dalle tue esigenze. In alcuni casi le mappe di calore sono molto utili. Diciamo che devi fare una denuncia sul crimine in un paese per quanto riguarda lo stato (o la città). Qui avrai un enorme set di dati che può avere dipendenze temporali.

Allo stesso modo, supponiamo che tu debba preparare un rapporto sul consumo di elettricità per le città. In questi casi puoi visualizzare facilmente la mappa di calore. Avrà più senso e sarà meno ingombrante.

Quindi, in poche parole, se hai molti dati continui e vuoi fare un rapporto in grado di individuare rapidamente le risposte, allora la mappa di calore è la migliore.


2
Per il consumo di energia, spesso non esiste una trama migliore di una mappa di calore : argustech.be/wp-content/uploads/2012/04/heatmap.png I fine settimana e le ore di lavoro saltano direttamente allo spettatore. Puoi vedere il carico di base, puoi vedere i picchi, puoi vedere quando accadono. È possibile rilevare qualsiasi modello strano in pochi secondi, ad esempio se un dispositivo elettrico è sempre acceso o si avvia troppo presto o troppo tardi.
Eric Duminil,

4

La critica 1 nella domanda originale copre il più grande svantaggio: che è difficile per qualcuno che legge la mappa di calore decodificare le informazioni quantitative trasmesse. Prendi in considerazione un diagramma a dispersione xy o un diagramma a punti, in cui la quantità sottostante è direttamente correlata alla distanza sul grafico, molto semplice per l'interpretazione.

In una mappa di calore, d'altra parte, la persona che legge il grafico è libera di interpretare il 10% "più rosso" o "più scuro" con la propria soddisfazione. In cima a ciò c'è il problema delle diverse capacità delle persone di discernere il colore e l'ombra per cominciare. Questi sono veri svantaggi, ma non sono universalmente fatali.

La terza critica, al contrario, sembra identificare inavvertitamente un'occasione in cui le mappe di calore sono particolarmente utili - quando i dati sono raggruppati su un piano 2D in modo che valori simili in una terza dimensione vengano visualizzati come patch di una particolare tonalità o colore. Quindi, mentre le mappe di calore sono inefficaci in alcune cose, sono utili per gli altri e dovrebbero rimanere nella tua borsa, allo stesso modo in cui i golfisti spesso portano zeppe da lancio o simili, nonostante siano inutili per guidare o mettere, o i carpentieri non lo fanno ignorare i martelli perché non sono adatti per il taglio del legno.

In generale, la visualizzazione dei dati dovrebbe essere vista come attività iterativa che richiederà del tempo quando si tenta una serie di visualizzazioni che mettono in evidenza le caratteristiche importanti dei dati, incluso provare più di un tipo di visualizzazione e quindi sperimentare per trovare le migliori impostazioni all'interno scelte particolari. Né si deve presumere che il risultato sarà una visualizzazione - a volte sarà necessaria una serie di visualizzazioni di dati per evidenziare molteplici importanti caratteristiche dei dati. In questo contesto, ci saranno momenti in cui per particolari caratteristiche di particolari insiemi di dati, la mappa di calore sarà la più efficace e i cluster comunicanti come descritto potrebbero essere una di quelle volte. Nel complesso, ci saranno occasioni frequenti in cui una singola visualizzazione non può fare tutto e ne sarà necessaria più di una.


3

Come accennato da altri, è davvero improprio dire che le mappe di calore sono sempre inefficaci. In realtà, sono abbastanza efficaci in molti casi.

Ad esempio, se si desidera visualizzare i dati 4D, è abbastanza semplice eseguire le prime tre dimensioni in molti software di stampa. Tuttavia, l'intero concetto di 4D è piuttosto difficile da concettualizzare affatto. Qual è la "quarta" direzione / dimensione?

Ecco dove una mappa di calore può essere efficace, perché consentirà di tracciare le prime tre dimensioni sull'asse delle coordinate, e la quarta può essere visualizzata impilando una mappa di calore sul piano (o linea, ma è meno probabile).

La linea di fondo è che hai bisogno del contesto. Cosa stai cercando nella tua visualizzazione? Inoltre, come collega autodidatta, posso dirti che questi corsi online tendono ad essere molto banali e inutili. Stai molto meglio usandoli solo quando cerchi informazioni / aiuto su argomenti specifici piuttosto che cercare di essere istruito su un intero argomento.

Buona fortuna comunque.


3

Per natura, una mappa di calore mostra i dati con due variabili indipendenti continue (o, non abbastanza equivalentemente, una variabile indipendente da uno spazio vettoriale bidimensionale) e una variabile dipendente continua. Per i dati di quel tipo, una mappa di calore è sicuramente uno dei tipi più efficaci di visualizzazione dei dati. Sì, ha i suoi problemi, ma è inevitabile: hai davvero solo due dimensioni con cui lavorare e uno spazio tridimensionale non può essere mappato a quello in un modo che preserva la struttura , quindi hai bisogno di un hack come mappare una dimensione sul colore o disegno di curve di livello ecc.

R2X×Y|X||Y|, che è finito per una variabile categoriale - in altre parole, il prodotto cartesiano di due variabili categoriali può essere considerato come una singola variabile categoriale ! E in questa luce, puoi anche usare altri grafici, che non hanno i problemi di una mappa di calore.

Se ti trovi in ​​una situazione in cui una mappa di calore su due variabili categoriali appare utile, è un'indicazione che probabilmente queste non sono variabili realmente categoriche, ma piuttosto variabili continue quantizzate.


4
Questa risposta è interessante, ma penso che dia poca importanza alla nozione di utilizzo di mappe di calore con variabili categoriali. Ad esempio, è possibile classificare i livelli categorici in base ai loro conteggi (o qualche altra variabile di ordinamento rilevante) e quindi utilizzare una mappa di calore per visualizzare la distribuzione congiunta o qualche altra quantità che varia con i livelli categorici congiunti. Questo può essere legato alle copule (e alle loro nozioni generalizzate). Tali visualizzazioni, se ben eseguite, possono rivelare una struttura reale nei dati che altrimenti sarebbe molto difficile da rilevare. (...)
Cardinale

(...) E un tale approccio è indipendente da qualsiasi idea (diretta) di incorporare i livelli categorici in uno spazio euclideo.
cardinale

Mi chiedevo se hai qualche commento sulla pratica dell'uso delle mappe di calore per l'espressione genica / i dati di microarray allora - questi sembrerebbero casi di utilizzo di mappe di calore per 2 variabili categoriali e una variabile continua per le quali le variabili categoriche non possono davvero essere interpretato come variabili continue quantizzate. Oppure immagino mappe di calore per matrici di correlazione di variabili categoriche in generale.
Chill2Macht,

3

Le mappe di calore sono eccezionali nel fornire una vista semplicistica di più variabili dal punto di vista delle serie temporali: i dati possono essere cambiamenti assoluti nel tempo o standardizzati usando punteggi Z o altri mezzi per esaminare variabili con intervalli di misurazione diversi o cambiamenti relativi di sottogruppi. Fornisce una visione visivamente evidente che si possono individuare correlazioni o inversioni e sostituire una moltitudine di grafici. Possono anche essere utilizzati nella preelaborazione per valutare la possibile riduzione della dimensionalità, ad esempio Factoring o PCA.

Le variabili che intervengono in modo errato e altri fattori possono essere nascoste e passate quando si utilizza questo approccio per individuare le correlazioni. Gli stessi aspetti nascosti si verificano con i grafici a linee, tuttavia, dato il gran numero di variabili, la mia esperienza è che le mappe di calore forniscono così tante informazioni che un utente non considera gli aspetti intermedi né altri fattori nascosti.

Questo da un data scientist dal punto di vista economista progressista con 20 anni nel settore della produzione di dati e il compito di educare il pubblico in generale con tali dati.


1

Le mappe di calore sono vantaggiose rispetto ai grafici a dispersione quando ci sono troppi punti dati da visualizzare su un grafico a dispersione. Questo può essere mitigato in un diagramma a dispersione usando punti di dati traslucidi ma oltre una certa soglia diventa meglio riassumere i dati.

In questo post del blog viene fornito un esempio convincente di grafici a dispersione difficili da interpretare.

Un grafico a dispersione può rappresentare solo visivamente la densità fino a una determinata soglia: la soglia di "punti ovunque" ...

Trama la densità, non i punti

La soluzione è tracciare la densità del punto in rilievo anziché i punti stessi. Conosciamo già questo metodo in una dimensione come l'istogramma.

In due dimensioni, ci sono diversi modi per farlo. Le forme del cestino possono essere prese da qualsiasi metodo di piastrellatura uniforme del piano, come quadrati o esagoni. Per ogni riquadro, viene conteggiato il numero di punti dati all'interno del riquadro. Alla tessera viene quindi assegnato un colore in base al numero di punti.

Una dichiarazione simile dai documenti ggplot2 sulla mappa di calore dei conteggi bin 2d :

Questa è un'alternativa utile alla geom_point()presenza di overploting.

Nella documentazione di geom_point():

Overplotting

Il potenziale problema più grande con un diagramma a dispersione è la sovrapposizione: ogni volta che hai più di qualche punto, i punti possono essere tracciati uno sopra l'altro. Ciò può distorcere gravemente l'aspetto visivo della trama. Non esiste una soluzione a questo problema, ma ci sono alcune tecniche che possono aiutare. È possibile aggiungere ulteriori informazioni con geom_smooth(), geom_quantile()o geom_density_2d(). Se hai pochi valori x univoci, geom_boxplot()può anche essere utile.

In alternativa, si può riassumere il numero di punti in ogni sede e visualizzare che in qualche modo, utilizzando geom_count(), geom_hex()o geom_density2d().

Un'altra tecnica è quella di rendere i punti trasparenti (ad es. geom_point(alpha = 0.05)) O molto piccoli (ad es geom_point(shape = ".").).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.