Sommario dell'amministratore delegato
La storia è molto più lunga e complicata di quanto molti credano.
Sintesi
La storia di ciò che Tukey chiamava diagrammi a riquadri è intricata con quella di quelli che oggi vengono spesso chiamati diagrammi a punti o strisce (dozzine di altri nomi) e con rappresentazioni della funzione quantile empirica.
Le trame di scatole in forme ampiamente attuali sono meglio conosciute attraverso il lavoro di John Wilder Tukey (1970, 1972, 1977).
Ma l'idea di mostrare la mediana e i quartili come riassunti di base - insieme spesso ma non sempre con punti che mostrano tutti i valori - risale almeno ai diagrammi di dispersione (molti nomi di varianti) introdotti dal geografo Percy Robert Crowe (1933). Si trattava di una tariffa base per i geografi e utilizzata in molti libri di testo, nonché in articoli di ricerca dalla fine degli anni '30 in poi.
Bibby (1986, pp.56, 59) ha fornito riferimenti ancora precedenti a idee simili insegnate da Arthur Lyon Bowley (in seguito Sir Arthur) nelle sue lezioni intorno al 1897 e alla sua raccomandazione (Bowley, 1910, p.62; 1952, p.73 ) per utilizzare i punti minimo e massimo e 10, 25, 50, 75 e 90% come base per un riepilogo grafico.
I range bar che mostrano estremi e quartili sono spesso attribuiti a Mary Eleanor Spear (1952), ma nella mia lettura meno persone citano Kenneth W. Haemer (1948). Gli articoli di Haemer sulla grafica statistica nello Statistician americano intorno al 1950 erano inventivi e hanno un morso critico e rimangono interessanti da rileggere. (Molti lettori saranno in grado di accedervi tramite jstor.org.) Al contrario, i libri di Spear (Spear 1969 è una rehash) erano accessibili e sensibili ma deliberatamente introduttivi piuttosto che innovativi o accademici.
Varianti di grafici a scatole in cui i baffi si estendono a percentili selezionati sono più comuni di quanto molti pensino. Ancora una volta, i geografi usarono trame equivalenti dagli anni '30 in poi.
Ciò che è più originale nella versione di Tukey dei diagrammi a riquadri sono innanzitutto i criteri per identificare i punti nelle code da tracciare separatamente e identificati come meritevoli di una considerazione dettagliata - e spesso segnalando che una variabile dovrebbe essere analizzata su una scala trasformata. La sua regola empirica 1.5 IQR è emersa solo dopo molte sperimentazioni. In alcune mani si è trasformato in una dura regola per l'eliminazione dei punti dati, che non è mai stata l'intenzione di Tukey. Un nome incisivo e memorabile - trama della scatola - non ha fatto male nel garantire un impatto molto più ampio di queste idee. Il diagramma di dispersione al contrario è piuttosto un termine noioso e triste.
L'elenco abbastanza lungo di riferimenti qui è, forse in contrasto con le apparenze, non inteso per essere esaustivo. L'obiettivo è solo quello di fornire la documentazione per alcuni precursori e alternative del diagramma a scatole. Riferimenti specifici possono essere utili per domande dettagliate o se sono in prossimità del campo. Al contrario, conoscere le pratiche in altri campi può essere salutare. La competenza grafica - non solo cartografica - dei geografi è stata spesso sottovalutata.
Più dettagli
I diagrammi dot-box ibridi furono usati da Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse e Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond e McCullagh (1974), Lewis (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild and Seber (2000), Quinn e Keough (2002), Young et al. (2006) e Hendry e Nielsen (2007) e molti altri. Vedi anche Miller (1953, 1964).
L'attrazione di baffi su percentili particolari, piuttosto che su punti dati all'interno di così tanti QIQ dei quartili, è stata enfatizzata da Cleveland (1985), ma anticipata da Matthews (1936) e Grove (1956) che hanno tracciato la gamma interottile, ovvero tra il primo e il settimi ottili, nonché la gamma e la gamma interquartile. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt e Johnson (2009, 2011) e Davino et al. (2014) hanno mostrato sia il minimo, i quartili, la mediana e il massimo. Schmid (1954) mostrava grafici riassuntivi con mediana, quartili e punti 5 e 95%. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) e Motulsky (2010, 2014, 2018) hanno tracciato baffi a 5 e 95% punti. Morgan e Henrion (1990, pagg. 2121, 241), Spence (2001, p. 36), e Gotelli ed Ellison (2004, 2013, pagg. 72, 110, 213, 416) baffi tracciati al 10% e 90% punti. Harris (1999) ha mostrato esempi sia del 5 e del 95% che del 10 e del 90%. Altman (1991, pp.34, 63) e Greenacre (2016) hanno tracciato i baffi al 2,5% e al 97,5%. Reimann et al. (2008, pagg. 46-47) tracciavano i baffi al 5% e 95% e 2% e 98% punti.
Parzen (1979a, 1979b, 1982) ibrido box e grafici quantici come grafici quantile-box. Vedi anche (ad esempio) Shera (1991), Militký e Meloun (1993), Meloun e Militký (1994). Si noti, tuttavia, che il diagramma a scatole quantile di Keen (2010) è solo un diagramma a scatole con baffi che si estendono fino agli estremi. Al contrario, i grafici a scatole quantili di JMP sono evidentemente grafici a scatole con segni allo 0,5%, 2,5%, 10%, 90%, 97,5%, 99,5%: vedi Sall et al. (2014, pagg. 143-4).
Ecco alcune note sulle varianti dei grafici a scatola quantica.
pp , 1 - p-p , 1 - p
p , 1 - p
Dalla letteratura vista da me, sembra che nessuno di questi fili - trame a scatola quantile o le successive varianti (A) (B) (C) - si citino a vicenda.
!!! al 3 ottobre 2018 i dettagli per alcuni riferimenti devono essere forniti nella prossima modifica.
Altman, DG 1991.
Statistica pratica nella ricerca medica.
Londra: Chapman and Hall.
Bentley, JL 1985. Perle di programmazione: selezione.
Comunicazioni dell'ACM 28: 1121-1127.
Bentley, JL 1988.
Altre perle di programmazione: Confessioni di un programmatore.
Lettura, MA: Addison-Wesley.
Bibby, J. 1986.
Note Verso una storia delle statistiche sull'insegnamento.
Edimburgo: John Bibby (Libri).
Bowley, AL 1910.
Un manuale elementare di statistica.
Londra: Macdonald ed Evans. (settima edizione 1952)
Cleveland, WS 1985. Elementi di dati grafici.
Monterey, California: Wadsworth.
Crowe, PR 1933. L'analisi della probabilità di pioggia: un metodo grafico e la sua applicazione ai dati europei.
Scottish Geographical Magazine 49: 73-91.
Crowe, PR 1936. Il regime delle piogge delle pianure occidentali.
Revisione geografica 26: 463-484.
Davis, JC 2002.
Statistica e analisi dei dati in geologia.
New York: John Wiley.
Dickinson, GC 1963.
Mappatura statistica e presentazione delle statistiche.
Londra: Edward Arnold. (seconda edizione 1973)
Dury, GH 1963.
East Midlands and the Peak.
Londra: Thomas Nelson.
Farmer, BH 1956. Precipitazioni e approvvigionamento idrico nella zona secca di Ceylon. Saggi geografici Steel, RW e CA Fisher (a cura di)
sulle terre tropicali britanniche.
Londra: George Philip, 227-268.
Gregory, S. 1963. Metodi statistici e il geografo.
Londra: Longmans. (edizioni successive 1968, 1973, 1978; editore successivamente Longman)
Grove, AT 1956. Erosione del suolo in Nigeria. Saggi geografici Steel, RW e CA Fisher (a cura di)
sulle terre tropicali britanniche.
Londra: George Philip, 79-111.
Haemer, KW 1948. Grafici a barra della gamma.
American Statistician 2 (2): 23.
Hendry, DF e B. Nielsen. 2007.
Modellistica econometrica: un approccio verosimile.
Princeton, New Jersey: Princeton University Press.
Hogg, WH 1948. Diagrammi di dispersione delle piogge: una discussione dei loro vantaggi e svantaggi.
Geografia 33: 31-37.
Ibrekk, H. e MG Morgan. 1987. Comunicazione grafica di quantità incerte a persone non tecniche.
Analisi del rischio 7: 519-529.
Johnson, BLC 1975.
Bangladesh. Londra: Heinemann Educational.
Keen, KJ 2010.
Grafica per statistiche e analisi dei dati con R.
Boca Raton, FL: CRC Press. (2a edizione 2018)
Lewis, CR 1975. L'analisi dei cambiamenti nello stato urbano: un caso di studio nel Galles centrale e nel confine gallese centrale.
Transazioni dell'Institute of British Geographers
64: 49-65.
Martinez, WL, AR Martinez e JL Solka. 2011.
Analisi dei dati esplorativi con MATLAB.
Boca Raton, FL: CRC Press.
Matthews, HA 1936. Una nuova visione di alcune familiari cascate indiane.
Rivista scozzese geografica : 52-84-97.
Matthews, JA 1981.
Approcci quantitativi e statistici alla geografia: un manuale pratico.
Oxford: Pergamo.
Meloun, M. e J. Militký. 1994. Trattamento dati computerizzato in chemiometria analitica. I. Analisi esplorativa di dati univariati.
Carte chimiche 48: 151-157.
Militký, J. e M. Meloun. 1993. Alcuni strumenti grafici per l'analisi univariata di dati esplorativi.
Analytica Chimica Acta 277: 215-221.
Miller, AA 1953.
La pelle della terra.
Londra: Methuen. (2a edizione 1964)
Monkhouse, FJ e HR Wilkinson. 1952.
Mappe e diagrammi: la loro compilazione e costruzione.
Londra: Methuen. (edizioni successive 1963, 1971)
Morgan, MG e M. Henrion. 1990.
Incertezza: una guida alla gestione dell'incertezza nell'analisi quantitativa dei rischi e delle politiche.
Cambridge: Cambridge University Press.
Myatt, GJ 2007.
Dare un senso ai dati: una guida pratica all'analisi dei dati esplorativi e al data mining.
Hoboken, NJ: John Wiley.
Myatt, GJ e Johnson, WP 2009.
Sense of Data II: una guida pratica alla visualizzazione dei dati, metodi avanzati di data mining e applicazioni.
Hoboken, NJ: John Wiley.
Myatt, GJ e Johnson, WP 2011.
Making Sense of Data III: una guida pratica alla progettazione di visualizzazioni interattive dei dati.
Hoboken, NJ: John Wiley.
Ottaway, B. 1973. Diagrammi di dispersione: un nuovo approccio alla visualizzazione delle date del carbonio-14.
Archeometria 15: 5-12.
Parzen, E. 1979a. Modellazione di dati statistici non parametrici.
Journal, American Statistical Association 74: 105-121.
Parzen, E. 1979b. Una prospettiva di funzione densità-quantile sulla stima robusta. In Launer, RL e GN Wilkinson (a cura di) Robustezza nelle statistiche.
New York: Academic Press, 237-258.
Parzen, E. 1982. Modellazione di dati usando funzioni quantili e densità-quantili. In Tiago de Oliveira, J. ed Epstein, B. (a cura di)
Alcuni recenti progressi nella statistica. Londra: Academic Press, 23-52.
Quinn, GP e MJ Keough. 2002.
Progettazione sperimentale e analisi dei dati per biologi.
Cambridge: Cambridge University Press.
Reimann, C., P. Filzmoser, RG Garrett e R. Dutter. 2008.
Spiegazione dell'analisi dei dati statistici: statistiche ambientali applicate con R.
Chichester: John Wiley.
Sall, J., A. Lehman, M. Stephens e L. Creighton. 2014.
JMP Start Statistics: una guida alle statistiche e all'analisi dei dati tramite JMP.
Cary, NC: SAS Institute.
Shera, DM 1991. Alcuni usi di grafici quantili per migliorare la presentazione dei dati.
Informatica e statistica 23: 50-53.
Spear, ME 1952. Statistiche dei grafici.
New York: McGraw-Hill.
Spear, ME 1969. Tecniche di creazione di grafici pratici.
New York: McGraw-Hill.
Tukey, JW 1970.
Analisi dei dati esplorativi. Edizione preliminare limitata. Volume I.
Lettura, MA: Addison-Wesley.
Tukey, JW 1972. Alcuni display grafici e semi-grafici. In Bancroft, TA e Brown, SA (a cura di)
Statistical Papers in onore di George W. Snedecor.
Ames, IA: Iowa State University Press, 293-316. (accessibile anche su http://www.edwardtufte.com/tufte/tukey )
Tukey, JW 1977.
Analisi dei dati esplorativi.
Lettura, MA: Addison-Wesley.
Wild, CJ e GAF Seber. 2000.
Incontri casuali: un primo corso di analisi dei dati e inferenza.
New York: John Wiley.