Qual è la storia dei grafici a scatole e come si è evoluto il design di "scatole e baffi"?


19

Molte fonti datano il classico design "box plot" a John Tukey e la sua "trama schematica" del 1970. Il design sembra essere rimasto relativamente statico da allora, con la versione ridotta di Edward Tufte della trama box non riuscendo a prendere piede, mentre le trame di violino - sebbene una variante più istruttiva della trama della scatola - rimangano meno popolari. Il suggerimento di Cleveland secondo cui i baffi si estendono al 10 ° e 90 ° percentile ha alcuni sostenitori, vedi Cox (2009) , ma non è la norma.

Hadley Wickham e Lisa Stryjewski hanno scritto un articolo inedito sulla storia delle trame delle scatole, ma non sembra coprire i precursori storici delle trame delle scatole.

Come è nata l'attuale, onnipresente trama "scatola e baffi"? Da che tipo di visualizzazione dei dati si è evoluto, quei progetti precedenti avevano qualche vantaggio significativo e perché sembrano essere stati eclissati in modo così completo nell'uso dello schema di Tukey? Una risposta illustrata sarebbe un vantaggio, ma sarebbe utile essere indirizzati a un riferimento che approfondisce storicamente rispetto a Wickham e Stryjewski.

Riferimenti

  • Cox, NJ (2009). Stata parlante: creazione e variazione di grafici a scatole. Stata Journal , 9 (3), 478.
  • Wickham, H. e Stryjewski, L. (2011). 40 anni di grafici a scatole. http://vita.had.co.nz/papers/boxplots.pdf

1
Qualche discussione pertinente su alcuni precursori qui: stats.stackexchange.com/questions/125521/… ... Tukey era a conoscenza del lavoro di Mary Spears ma è possibile che non abbia visto nessuno dei precedenti
Glen_b -Reinstate Monica

Grazie @Glen_b, questa è stata la discussione che ho letto che ha ispirato questa domanda, ma mi ci sono voluti 4 anni per andare in giro a chiederlo e non sono riuscito a rintracciare la discussione! (Peccato che i commenti non vengano visualizzati nella ricerca sul sito, motivo per cui sarebbe utile provare a inserirli in una corretta domanda e
risposta

1
Uso la ricerca di Google con site:stats.stackexchange.comset per rintracciare le cose nei commenti. Sono stato in grado di ricordare abbastanza dettagli (che si trattava di una discussione tra Nick e io relativi ai grafici a scatole e che avevo citato Schmid) per ottenere il primo successo.
Glen_b -Restate Monica

1
Osservazione tangenziale sui valori anomali del boxplot. Sono state ampiamente utilizzate due regole. Quello comunemente predefinito (in R e altri software) è che le osservazioni inferiori a o superiori a Q 3 + 1,5 I Q R sono designate come valori anomali; la "regola 1.5IQR". Nelle prime versioni Minitab usava anche una regola 3 I Q R , chiamando i valori anomali più estremi "probabili valori anomali" e quelli meno estremi "possibili valori anomali". Almeno per dati approssimativamente normali, entrambe le regole mostrano percentuali di valori anomali che variano notevolmente con la dimensione del campione n . Ci sono prove da simulazioni che aQ1-1.5ioQRQ3+1.5ioQR3ioQRn. regola I Q R sarebbe più stabile fino a 1000. 2.25ioQR
BruceET,

1
github.com/hadley/boxplots-paper include molto materiale, come i resoconti dei revisori anonimi di una rivista (? _Statista americano_) (breve e scoraggiante) e recensioni indesiderate indipendenti ma sovrapposte di David Hoaglin e io (entrambe molto più dettagliate).
Nick Cox,

Risposte:


18

Sommario dell'amministratore delegato

La storia è molto più lunga e complicata di quanto molti credano.

Sintesi

La storia di ciò che Tukey chiamava diagrammi a riquadri è intricata con quella di quelli che oggi vengono spesso chiamati diagrammi a punti o strisce (dozzine di altri nomi) e con rappresentazioni della funzione quantile empirica.

Le trame di scatole in forme ampiamente attuali sono meglio conosciute attraverso il lavoro di John Wilder Tukey (1970, 1972, 1977).

Ma l'idea di mostrare la mediana e i quartili come riassunti di base - insieme spesso ma non sempre con punti che mostrano tutti i valori - risale almeno ai diagrammi di dispersione (molti nomi di varianti) introdotti dal geografo Percy Robert Crowe (1933). Si trattava di una tariffa base per i geografi e utilizzata in molti libri di testo, nonché in articoli di ricerca dalla fine degli anni '30 in poi.

Bibby (1986, pp.56, 59) ha fornito riferimenti ancora precedenti a idee simili insegnate da Arthur Lyon Bowley (in seguito Sir Arthur) nelle sue lezioni intorno al 1897 e alla sua raccomandazione (Bowley, 1910, p.62; 1952, p.73 ) per utilizzare i punti minimo e massimo e 10, 25, 50, 75 e 90% come base per un riepilogo grafico.

I range bar che mostrano estremi e quartili sono spesso attribuiti a Mary Eleanor Spear (1952), ma nella mia lettura meno persone citano Kenneth W. Haemer (1948). Gli articoli di Haemer sulla grafica statistica nello Statistician americano intorno al 1950 erano inventivi e hanno un morso critico e rimangono interessanti da rileggere. (Molti lettori saranno in grado di accedervi tramite jstor.org.) Al contrario, i libri di Spear (Spear 1969 è una rehash) erano accessibili e sensibili ma deliberatamente introduttivi piuttosto che innovativi o accademici.

Varianti di grafici a scatole in cui i baffi si estendono a percentili selezionati sono più comuni di quanto molti pensino. Ancora una volta, i geografi usarono trame equivalenti dagli anni '30 in poi.

Ciò che è più originale nella versione di Tukey dei diagrammi a riquadri sono innanzitutto i criteri per identificare i punti nelle code da tracciare separatamente e identificati come meritevoli di una considerazione dettagliata - e spesso segnalando che una variabile dovrebbe essere analizzata su una scala trasformata. La sua regola empirica 1.5 IQR è emersa solo dopo molte sperimentazioni. In alcune mani si è trasformato in una dura regola per l'eliminazione dei punti dati, che non è mai stata l'intenzione di Tukey. Un nome incisivo e memorabile - trama della scatola - non ha fatto male nel garantire un impatto molto più ampio di queste idee. Il diagramma di dispersione al contrario è piuttosto un termine noioso e triste.

L'elenco abbastanza lungo di riferimenti qui è, forse in contrasto con le apparenze, non inteso per essere esaustivo. L'obiettivo è solo quello di fornire la documentazione per alcuni precursori e alternative del diagramma a scatole. Riferimenti specifici possono essere utili per domande dettagliate o se sono in prossimità del campo. Al contrario, conoscere le pratiche in altri campi può essere salutare. La competenza grafica - non solo cartografica - dei geografi è stata spesso sottovalutata.

Più dettagli

I diagrammi dot-box ibridi furono usati da Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse e Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond e McCullagh (1974), Lewis (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild and Seber (2000), Quinn e Keough (2002), Young et al. (2006) e Hendry e Nielsen (2007) e molti altri. Vedi anche Miller (1953, 1964).

L'attrazione di baffi su percentili particolari, piuttosto che su punti dati all'interno di così tanti QIQ dei quartili, è stata enfatizzata da Cleveland (1985), ma anticipata da Matthews (1936) e Grove (1956) che hanno tracciato la gamma interottile, ovvero tra il primo e il settimi ottili, nonché la gamma e la gamma interquartile. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt e Johnson (2009, 2011) e Davino et al. (2014) hanno mostrato sia il minimo, i quartili, la mediana e il massimo. Schmid (1954) mostrava grafici riassuntivi con mediana, quartili e punti 5 e 95%. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) e Motulsky (2010, 2014, 2018) hanno tracciato baffi a 5 e 95% punti. Morgan e Henrion (1990, pagg. 2121, 241), Spence (2001, p. 36), e Gotelli ed Ellison (2004, 2013, pagg. 72, 110, 213, 416) baffi tracciati al 10% e 90% punti. Harris (1999) ha mostrato esempi sia del 5 e del 95% che del 10 e del 90%. Altman (1991, pp.34, 63) e Greenacre (2016) hanno tracciato i baffi al 2,5% e al 97,5%. Reimann et al. (2008, pagg. 46-47) tracciavano i baffi al 5% e 95% e 2% e 98% punti.

Parzen (1979a, 1979b, 1982) ibrido box e grafici quantici come grafici quantile-box. Vedi anche (ad esempio) Shera (1991), Militký e Meloun (1993), Meloun e Militký (1994). Si noti, tuttavia, che il diagramma a scatole quantile di Keen (2010) è solo un diagramma a scatole con baffi che si estendono fino agli estremi. Al contrario, i grafici a scatole quantili di JMP sono evidentemente grafici a scatole con segni allo 0,5%, 2,5%, 10%, 90%, 97,5%, 99,5%: vedi Sall et al. (2014, pagg. 143-4).

Ecco alcune note sulle varianti dei grafici a scatola quantica.

pp,1-p-p,1-p

p,1-p

Dalla letteratura vista da me, sembra che nessuno di questi fili - trame a scatola quantile o le successive varianti (A) (B) (C) - si citino a vicenda.

!!! al 3 ottobre 2018 i dettagli per alcuni riferimenti devono essere forniti nella prossima modifica.

Altman, DG 1991. Statistica pratica nella ricerca medica. Londra: Chapman and Hall.

Bentley, JL 1985. Perle di programmazione: selezione. Comunicazioni dell'ACM 28: 1121-1127.

Bentley, JL 1988. Altre perle di programmazione: Confessioni di un programmatore. Lettura, MA: Addison-Wesley.

Bibby, J. 1986. Note Verso una storia delle statistiche sull'insegnamento. Edimburgo: John Bibby (Libri).

Bowley, AL 1910. Un manuale elementare di statistica. Londra: Macdonald ed Evans. (settima edizione 1952)

Cleveland, WS 1985. Elementi di dati grafici. Monterey, California: Wadsworth.

Crowe, PR 1933. L'analisi della probabilità di pioggia: un metodo grafico e la sua applicazione ai dati europei. Scottish Geographical Magazine 49: 73-91.

Crowe, PR 1936. Il regime delle piogge delle pianure occidentali. Revisione geografica 26: 463-484.

Davis, JC 2002. Statistica e analisi dei dati in geologia. New York: John Wiley.

Dickinson, GC 1963. Mappatura statistica e presentazione delle statistiche. Londra: Edward Arnold. (seconda edizione 1973)

Dury, GH 1963. East Midlands and the Peak. Londra: Thomas Nelson.

Farmer, BH 1956. Precipitazioni e approvvigionamento idrico nella zona secca di Ceylon. Saggi geografici Steel, RW e CA Fisher (a cura di) sulle terre tropicali britanniche. Londra: George Philip, 227-268.

Gregory, S. 1963. Metodi statistici e il geografo. Londra: Longmans. (edizioni successive 1968, 1973, 1978; editore successivamente Longman)

Grove, AT 1956. Erosione del suolo in Nigeria. Saggi geografici Steel, RW e CA Fisher (a cura di) sulle terre tropicali britanniche. Londra: George Philip, 79-111.

Haemer, KW 1948. Grafici a barra della gamma. American Statistician 2 (2): 23.

Hendry, DF e B. Nielsen. 2007. Modellistica econometrica: un approccio verosimile. Princeton, New Jersey: Princeton University Press.

Hogg, WH 1948. Diagrammi di dispersione delle piogge: una discussione dei loro vantaggi e svantaggi. Geografia 33: 31-37.

Ibrekk, H. e MG Morgan. 1987. Comunicazione grafica di quantità incerte a persone non tecniche. Analisi del rischio 7: 519-529.

Johnson, BLC 1975. Bangladesh. Londra: Heinemann Educational.

Keen, KJ 2010. Grafica per statistiche e analisi dei dati con R. Boca Raton, FL: CRC Press. (2a edizione 2018)

Lewis, CR 1975. L'analisi dei cambiamenti nello stato urbano: un caso di studio nel Galles centrale e nel confine gallese centrale. Transazioni dell'Institute of British Geographers 64: 49-65.

Martinez, WL, AR Martinez e JL Solka. 2011. Analisi dei dati esplorativi con MATLAB. Boca Raton, FL: CRC Press.

Matthews, HA 1936. Una nuova visione di alcune familiari cascate indiane. Rivista scozzese geografica : 52-84-97.

Matthews, JA 1981. Approcci quantitativi e statistici alla geografia: un manuale pratico. Oxford: Pergamo.

Meloun, M. e J. Militký. 1994. Trattamento dati computerizzato in chemiometria analitica. I. Analisi esplorativa di dati univariati. Carte chimiche 48: 151-157.

Militký, J. e M. Meloun. 1993. Alcuni strumenti grafici per l'analisi univariata di dati esplorativi. Analytica Chimica Acta 277: 215-221.

Miller, AA 1953. La pelle della terra. Londra: Methuen. (2a edizione 1964)

Monkhouse, FJ e HR Wilkinson. 1952. Mappe e diagrammi: la loro compilazione e costruzione. Londra: Methuen. (edizioni successive 1963, 1971)

Morgan, MG e M. Henrion. 1990. Incertezza: una guida alla gestione dell'incertezza nell'analisi quantitativa dei rischi e delle politiche. Cambridge: Cambridge University Press.

Myatt, GJ 2007. Dare un senso ai dati: una guida pratica all'analisi dei dati esplorativi e al data mining. Hoboken, NJ: John Wiley.

Myatt, GJ e Johnson, WP 2009. Sense of Data II: una guida pratica alla visualizzazione dei dati, metodi avanzati di data mining e applicazioni. Hoboken, NJ: John Wiley.

Myatt, GJ e Johnson, WP 2011. Making Sense of Data III: una guida pratica alla progettazione di visualizzazioni interattive dei dati. Hoboken, NJ: John Wiley.

Ottaway, B. 1973. Diagrammi di dispersione: un nuovo approccio alla visualizzazione delle date del carbonio-14. Archeometria 15: 5-12.

Parzen, E. 1979a. Modellazione di dati statistici non parametrici. Journal, American Statistical Association 74: 105-121.

Parzen, E. 1979b. Una prospettiva di funzione densità-quantile sulla stima robusta. In Launer, RL e GN Wilkinson (a cura di) Robustezza nelle statistiche. New York: Academic Press, 237-258.

Parzen, E. 1982. Modellazione di dati usando funzioni quantili e densità-quantili. In Tiago de Oliveira, J. ed Epstein, B. (a cura di) Alcuni recenti progressi nella statistica. Londra: Academic Press, 23-52.

Quinn, GP e MJ Keough. 2002. Progettazione sperimentale e analisi dei dati per biologi. Cambridge: Cambridge University Press.

Reimann, C., P. Filzmoser, RG Garrett e R. Dutter. 2008. Spiegazione dell'analisi dei dati statistici: statistiche ambientali applicate con R. Chichester: John Wiley.

Sall, J., A. Lehman, M. Stephens e L. Creighton. 2014. JMP Start Statistics: una guida alle statistiche e all'analisi dei dati tramite JMP. Cary, NC: SAS Institute.

Shera, DM 1991. Alcuni usi di grafici quantili per migliorare la presentazione dei dati. Informatica e statistica 23: 50-53.

Spear, ME 1952. Statistiche dei grafici. New York: McGraw-Hill.

Spear, ME 1969. Tecniche di creazione di grafici pratici. New York: McGraw-Hill.

Tukey, JW 1970.
Analisi dei dati esplorativi. Edizione preliminare limitata. Volume I. Lettura, MA: Addison-Wesley.

Tukey, JW 1972. Alcuni display grafici e semi-grafici. In Bancroft, TA e Brown, SA (a cura di) Statistical Papers in onore di George W. Snedecor. Ames, IA: Iowa State University Press, 293-316. (accessibile anche su http://www.edwardtufte.com/tufte/tukey )

Tukey, JW 1977. Analisi dei dati esplorativi. Lettura, MA: Addison-Wesley.

Wild, CJ e GAF Seber. 2000. Incontri casuali: un primo corso di analisi dei dati e inferenza. New York: John Wiley.


Ho altro materiale su trame box percentili, trame montane e altre forme ibride, da aggiungere in seguito.
Nick Cox,

Apprezzo molto questa risposta, grazie Nick - non vedo l'ora di aggiungere altre alternative e ibridi. Penso che sia probabilmente giusto dire "grafici a scatola" e amici "formano una" famiglia "di visualizzazioni di dati, anche se non so come si debba chiamare quella famiglia
Silverfish,

Grazie! se il possesso di linee o altri marcatori che indicano la mediana e i quartili definisce una scatola, allora ci sono stati grafici a scatole molto prima che Tukey le nominasse, e sono fiducioso che non abbia mai affermato diversamente. Tuttavia, molte storie in miniatura nei libri di testo e altrove sembrano enfatiche sul punto; per lo più, è solo un meme ripetuto senza prove come la storia secondo cui i lemming saltano giù dalle scogliere come suicidi collettivi. Molte delle alternative ai grafici a scatole non mostrano nemmeno una scatola in alcun senso, quindi il campo è completamente aperto per includere qualsiasi rappresentazione grafica delle distribuzioni univariate.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.