Quando è utile utilizzare la visualizzazione interattiva dei dati?


17

Mentre si prepara per un discorso darò presto, di recente ho iniziato a scavare in due grandi strumenti (gratuiti) per la visualizzazione interattiva dei dati: GGobi e Mondrian - entrambi offrono una vasta gamma di funzionalità (anche se sono un po 'buggy).

Vorrei chiedere il tuo aiuto per articolare (sia per me stesso che per il mio pubblico futuro) Quando è utile usare grafici interattivi? O per l'esplorazione dei dati (per noi stessi) e la presentazione dei dati (per un "cliente")?

Per quando spiegando i dati a un client, posso vedere il valore dell'animazione per:

  • Utilizzando "identifica / collegamento / spazzolatura" per vedere quale punto di dati nel grafico è cosa.
  • Presentare un'analisi di sensibilità dei dati (ad esempio: "se rimuoviamo questo punto, ecco cosa otterremo)
  • Mostrare l'effetto di diversi gruppi nei dati (ad esempio: "diamo un'occhiata ai nostri grafici per i maschi e ora per le femmine")
  • Mostrare l'effetto del tempo (o dell'età, o in generale, offrendo un'altra dimensione alla presentazione)

Per quando esplorando noi stessi i dati, posso vedere il valore di identificare / collegare / spazzolare quando esploro un valore anomalo in un set di dati su cui stiamo lavorando.

Ma a parte questi due esempi, non sono sicuro di quale altro uso pratico offrano queste tecniche. Soprattutto per la nostra esplorazione dei dati!

Si potrebbe sostenere che la parte interattiva sia utile per esplorare (ad esempio) un diverso comportamento di diversi gruppi / cluster nei dati. Ma quando (in pratica) mi sono avvicinato a tale situazione, quello che tendevo a fare era eseguire le relative procedure statistiche (e i test post-hoc) - e ciò che ho trovato essere significativo avrei quindi tracciato con colori che dividevano chiaramente i dati gruppi pertinenti. Da quello che ho visto, questo è un approccio più sicuro quindi "interrogarsi" sui dati (che potrebbe facilmente portare al dragaggio dei dati (se l'ambito del confronto multiplo necessario per la correzione non fosse nemmeno chiaro).

Sarei molto felice di leggere la tua esperienza / pensieri su questo argomento.

(questa domanda può essere una wiki - anche se non è soggettiva e una risposta ben ponderata vincerà volentieri il mio segno di "risposta" :))


3
Almeno nel mio caso, sono un po 'nella stessa barca. Apprezzo Mondrian e lo tengo aggiornato, ma quando esploro un nuovo set di dati tende ad essere in R, che è meno interattivo ma nel complesso più flessibile. Ho iniziato a scriverti una risposta completa e mi sono reso conto che stavo parlando in teoria e non per esperienza reale.
Wayne,

Risposte:


8

Oltre a collegare i dati quantitativi o qualitativi ai modelli spaziali, come illustrato da @whuber, vorrei menzionare l'uso dell'EDA, con la spazzolatura e i vari diagrammi di collegamento tra loro, per l'analisi dei dati longitudinale e ad alta dimensione .

Entrambi sono discussi nel libro eccellente, Grafica interattiva e dinamica per l'analisi dei dati con R e GGobi , di Dianne Cook e Deborah F. Swayne (Springer UseR !, 2007), che sicuramente conosci. Gli autori hanno una bella discussione sull'EDA nel capitolo 1, giustificando la necessità che l'ED "ci imponga", citando John Tukey (p. 13): l'uso di display interattivi e dinamici non è né snooping dei dati , né dati preliminari ispezione (ad es. riassunti puramente grafici dei dati), ma è semplicemente vista come un'indagine interattiva dei dati che potrebbe precedere o integrare la modellistica statistica pura basata su ipotesi.

L'uso di GGobi insieme alla sua interfaccia R ( rggobi ) risolve anche il problema di come generare grafica statica per report intermedi o pubblicazioni finali, anche con Projection Pursuit (pagine 26-34), grazie ai pacchetti DescribeDisplay o ggplot2 .

Sulla stessa linea, Michael Friendly ha a lungo sostenuto l'uso della visualizzazione dei dati nell'analisi categorica dei dati, che è stata ampiamente esemplificata nel pacchetto vcd, ma anche nel pacchetto vcdExtra più recente (incluso viz dinamico. Attraverso il pacchetto rgl ), che funge da collante tra i pacchetti vcd e gnm per estendere i modelli log-linear. Recentemente ha dato un bel riassunto di quel lavoro durante il 6 ° CARME Conferenza, progressi nel visualizzare dati categoriali Utilizzando il VCD, GNM e pacchetti vcdExtra in R .

Pertanto, si può anche pensare che l'EDA fornisca una spiegazione visiva dei dati (nel senso che può spiegare modelli imprevisti nei dati osservati), prima di un approccio di modellazione puramente statistico, o parallelamente ad esso. Cioè, l'EDA non solo fornisce modi utili per studiare la struttura interna dei dati a portata di mano, ma può anche aiutare a perfezionare e / o sintetizzare i modelli statistici applicati su di esso. È in sostanza ciò che i biplot consentono di fare, per esempio. Sebbene non siano di per sé tecniche di analisi multidimensionale , sono strumenti per visualizzare i risultati dell'analisi multidimensionale (fornendo un'approssimazionedelle relazioni quando si considerano tutti gli individui insieme, o tutte le variabili insieme, o entrambi). I punteggi dei fattori possono essere utilizzati nella modellazione successiva al posto della metrica originale per ridurre la dimensionalità o per fornire livelli intermedi di rappresentazione.

Nota a margine

A rischio di essere vecchio stile, di tanto in tanto uso ancora xlispstat( Luke Tierney ). Ha funzionalità semplici ma efficaci per display interattivi, attualmente non disponibile nella grafica R di base. Non sono a conoscenza di capacità simili in Clojure + Incanter (+ Processing).


8

Il collegamento dinamico della grafica è naturale ed efficace per l'analisi esplorativa dei dati spaziali o ESDA . I sistemi ESDA in genere collegano una o più mappe quantitative (come le mappe coropletiche ) con viste tabulari e grafici statistici dei dati sottostanti. Alcune di queste funzionalità fanno parte di alcuni sistemi GIS desktop per circa 15 anni, in particolare ArcView 3 (un prodotto commerciale fuori produzione). Il software GeoDa gratuito offre alcune di queste funzionalità in un ambiente progettato per l'esplorazione dei dati spaziali e l'analisi statistica. È goffo, con un'interfaccia idiosincratica e una grafica non lucidata, ma abbastanza priva di bug.

Questo uso dell'EDA elude l'obiezione secondo cui i test statistici possono essere migliori dell'esplorazione interattiva perché in molte (la maggior parte?) Situazioni non esiste un modello statistico chiaro, non esiste un test statistico ovvio (o addirittura appropriato) e il test delle ipotesi è spesso irrilevante: le persone hanno bisogno di vedere cosa succede , dove si verifica e di osservare le relazioni statistiche tra le variabili in un contesto spaziale. Non tutte le analisi dei dati sono, o dovrebbero persino consistere in, procedure formali!


Ciao Whuber. Il tuo esempio di ESDA è un ottimo esempio, grazie! Se voi (o altri) potete suggerire altri esempi di quando le procedure formali sono meno rilevanti, ciò sarebbe di grande aiuto.
Tal Galili,

7

Per me la visualizzazione interattiva è utile solo per la mia esplorazione o quando lavoro con un cliente molto pratico. Quando ho a che fare con una presentazione finale, preferisco scegliere il grafico statico più adatto a me. Altrimenti i clienti possono essere totalmente distratti dal fattore gee-whiz.

Il più grande vantaggio che ne ricavo è un livello di velocità che mi libera di esaminare molto più di quanto avrei se mi fermassi a programmare una soluzione. JMP è uno dei miei strumenti preferiti per questo in quanto integra molto di ciò che voglio in un'unica interfaccia. Penso che la maggior parte delle persone che sono bravi programmatori statistici provano qualcosa come JMP (o GGobi, ecc.) Per un periodo troppo breve per diventare davvero bravo. JMP in particolare ti darà l'impressione di conoscerlo semplicemente guardando i menu. Tuttavia, è necessario consultare il manuale per scoprire tutta la sua potenza.

Hai menzionato la mia principale preoccupazione per questo livello di velocità: finisci per non avere assolutamente idea di cosa significano i tuoi valori p. In pochi minuti puoi esaminare visivamente centinaia di relazioni. Fare test di ipotesi dopo tutto ciò è totalmente fuorviante, ma vedo che la gente lo fa sempre.

Una caratteristica che adoro di GGobi è la sua ricerca della proiezione, in cui specifichi quale tipo di modello cerchi in uno spazio ad alta dimensione e poi ti siedi e lo guardi "perseguire" tale obiettivo. Roba fantastica!


2
+1. L'osservazione delle presentazioni finali ricorda, come notevole controesempio, il famoso discorso TED del 2006 di Hans Rosling ( ted.com/talks/… ). Ri: il punto sull'esame di "molto di più", mi viene in mente come un avvocato in una deposizione mi abbia chiesto di come avevo esaminato i dati a sostegno della mia testimonianza e di come il suo viso cadde quando apprese che il lavoro era stato svolto in modo interattivo e pertanto nulla è stato stampato o salvato (che potrebbe quindi invocare, esaminare e provare a contestare). ;-)
whuber

JMP è una delle migliori applicazioni statistiche disponibili sul mercato. Gli statistici dovrebbero sicuramente imparare a usarlo, se non altro per impressionare i propri clienti. È costoso, ma economico se sei uno studente o un membro del personale di una scuola / college / università
Neil McGuigan
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.