Un diagramma a scatole ha lo scopo di riassumere un insieme relativamente piccolo di dati in un modo che mostra chiaramente
Un valore centrale
La diffusione di valori "tipici".
Valori individuali che si discostano così tanto dal valore centrale, rispetto alla diffusione, che vengono individuati per un'attenzione speciale e identificati separatamente (per nome, ad esempio). Questi sono chiamati "valori identificati".
Questo deve essere fatto in modo robusto : ciò significa che il diagramma a scatole non dovrebbe apparire sensibilmente diverso quando uno, o una porzione relativamente piccola, dei valori dei dati viene arbitrariamente modificata.
La soluzione adottata dal suo inventore John Tukey è quella di utilizzare le statistiche dell'ordine, i dati ordinati dal più basso al più alto, in modo sistematico. Per semplicità (ha fatto calcoli mentalmente o con carta e matita) Tukey si è concentrato sulle mediane : i valori medi di lotti di numeri. (Per i lotti con conteggi pari, Tukey utilizzava il punto medio dei due valori medi.) Una mediana è resistente alle modifiche fino a metà dei dati su cui si basa, rendendola eccellente come statistica solida. Così:
Il valore centrale è stimato con la mediana di tutti i dati.
La diffusione è stimata con la differenza tra le mediane della "metà superiore" - tutti i dati uguali o superiori alla mediana - e la "metà inferiore" - tutti i dati uguali o inferiori alla mediana. Queste due mediane sono chiamate "cerniere" superiori e inferiori o "quarte". Tendono oggi a essere sostituiti da cose chiamate quartili (che non hanno una definizione universale, ahimè).
I recinti invisibili per lo screening dei valori anomali vengono eretti 1,5 e 3 volte la diffusione oltre le cerniere (lontano dal valore centrale).
- "Il valore a ciascuna estremità più vicino, ma ancora all'interno, della recinzione interna è" adiacente "."
- I valori oltre il primo recinto sono chiamati "valori anomali".
- I valori oltre il secondo recinto sono "lontani".
(Quelli abbastanza grandi da ricordare l' arguto hippie degli anni '60 capiranno la battuta.)
Poiché la diffusione è una differenza dei valori dei dati, questi recinti hanno le stesse unità di misura dei dati originali: questo è il senso di "distanza" nella domanda.
Per quanto riguarda i valori dei dati da identificare, Tukey ha scritto
Possiamo almeno identificare i valori estremi e potremmo fare bene a identificarne alcuni.
Qualsiasi metodo grafico per visualizzare la mediana, i cardini e i valori identificati merita probabilmente di essere chiamato un "diagramma a scatole" (originariamente "diagramma a scatole e baffi"). I recinti di solito non sono raffigurati. Il design di Tukey consiste in un rettangolo che descrive le cerniere con una "vita" sulla mediana. I "baffi" discreti simili a linee si estendono verso l'esterno dalle cerniere ai valori più interni identificati (sia sopra che sotto la scatola). Di solito questi valori più interni identificati sono i valori adiacenti definiti sopra.
Di conseguenza, l'aspetto predefinito di un diagramma a scatole è di estendere i baffi ai valori di dati non periferici più estremi e di identificare (tramite etichette di testo) i dati che comprendono le estremità dei baffi e tutti i valori anomali. Ad esempio, il vulcano Tupungatito è l'alto valore adiacente per i dati sulle altezze del vulcano raffigurati a destra della figura: il baffo si ferma lì. Tupungatito e tutti i vulcani più alti sono identificati separatamente.
Affinché ciò visualizzi fedelmente i dati, la distanza nel grafico è proporzionale alle differenze nei valori dei dati. (Qualsiasi discostamento dalla proporzionalità diretta introdurrebbe un "fattore di bugia" nella terminologia di Tufte (1983).)
Questi due grafici a scatole del libro EDA di Tukey (p. 41) illustrano i componenti. È interessante notare che ha identificato i valori non periferici alle estremità alte e basse del set di dati degli Stati a sinistra e un valore non periferico basso delle altezze del Vulcano a destra. Questo esemplifica l'interazione di regole e giudizio che pervade il libro.
(Puoi dire che questi dati identificati sono non periferici, perché puoi stimare le posizioni delle recinzioni. Ad esempio, le cerniere delle altezze dello stato sono vicine a 11.000 e 1.000, dando uno spread intorno a 10.000. Moltiplicando per 1,5 e 3 fornisce distanze di 15.000 e 30.000. Pertanto, la recinzione superiore invisibile deve essere vicino a 11.000 + 15.000 = 26.000 e la recinzione inferiore, a 1.000 - 15.000, sarebbe inferiore a zero. Le recinzioni lontane sarebbero vicine a 11.000 + 30.000 = 41.000 e 1.000 - 30.000 = -29.000).
Riferimenti
Tufte, Edward. La visualizzazione visiva di informazioni quantitative. Cheshire Press, 1983.
Tukey, John. Capitolo 2, EDA . Addison-Wesley, 1977.