Comprensione dei baffi di un diagramma a scatole


9

Ho una domanda sull'interpretazione dei baffi di un diagramma a scatole. Ho letto quanto segue: "Nella parte superiore e inferiore del rettangolo, i" baffi "mostrano l'intervallo di 1,5 volte la distanza tra i quantili 0,25 e 0,75", ma non capiscono del tutto cosa si intende per "distanza" .

Non può essere intesa la massa di probabilità, poiché tra il quantile 0,25 e 0,75 abbiamo ovviamente sempre la stessa percentuale di dati. Qual è allora l'idea?

Risposte:


6

Il valore di X che corrisponde al 75 quantile meno il valore di X che corrisponde al 25 ° è la distanza. Ad esempio, per SAT Math Test, 620 è il 75 ° e 520 è il 25 ° quantile. Quindi, se ottieni un punteggio superiore a 620, hai fatto meglio del 75% dei partecipanti al test. I baffi si estenderebbero fino a 1,5 * (620-520) punti.


Bene, ma poi i baffi sarebbero della stessa lunghezza su entrambi i lati della scatola (che non è necessariamente il caso).
Ospite555 del

8
+1, una risposta (leggermente più) completa è che i baffi sono fino a 1,5 * IQR, se non si hanno più dati in quell'intervallo, il baffo si interrompe brevemente. Inoltre, qualsiasi dato aggiuntivo oltre quel punto viene tracciato individualmente come potenziali valori anomali.
gung - Ripristina Monica

Con questa piccola spiegazione aggiuntiva è chiaro ora, grazie mille!
Ospite555 del

Ho modificato la risposta con il punto eccellente di @ gung.
Dimitriy V. Masterov

5
@gung e una risposta ancora più completa è che i baffi giacciono sempre su un punto esistente nei dati
hadley,

4

Un diagramma a scatole ha lo scopo di riassumere un insieme relativamente piccolo di dati in un modo che mostra chiaramente

  • Un valore centrale

  • La diffusione di valori "tipici".

  • Valori individuali che si discostano così tanto dal valore centrale, rispetto alla diffusione, che vengono individuati per un'attenzione speciale e identificati separatamente (per nome, ad esempio). Questi sono chiamati "valori identificati".

Questo deve essere fatto in modo robusto : ciò significa che il diagramma a scatole non dovrebbe apparire sensibilmente diverso quando uno, o una porzione relativamente piccola, dei valori dei dati viene arbitrariamente modificata.

La soluzione adottata dal suo inventore John Tukey è quella di utilizzare le statistiche dell'ordine, i dati ordinati dal più basso al più alto, in modo sistematico. Per semplicità (ha fatto calcoli mentalmente o con carta e matita) Tukey si è concentrato sulle mediane : i valori medi di lotti di numeri. (Per i lotti con conteggi pari, Tukey utilizzava il punto medio dei due valori medi.) Una mediana è resistente alle modifiche fino a metà dei dati su cui si basa, rendendola eccellente come statistica solida. Così:

  • Il valore centrale è stimato con la mediana di tutti i dati.

  • La diffusione è stimata con la differenza tra le mediane della "metà superiore" - tutti i dati uguali o superiori alla mediana - e la "metà inferiore" - tutti i dati uguali o inferiori alla mediana. Queste due mediane sono chiamate "cerniere" superiori e inferiori o "quarte". Tendono oggi a essere sostituiti da cose chiamate quartili (che non hanno una definizione universale, ahimè).

  • I recinti invisibili per lo screening dei valori anomali vengono eretti 1,5 e 3 volte la diffusione oltre le cerniere (lontano dal valore centrale).

    • "Il valore a ciascuna estremità più vicino, ma ancora all'interno, della recinzione interna è" adiacente "."
    • I valori oltre il primo recinto sono chiamati "valori anomali".
    • I valori oltre il secondo recinto sono "lontani".

(Quelli abbastanza grandi da ricordare l' arguto hippie degli anni '60 capiranno la battuta.)

Poiché la diffusione è una differenza dei valori dei dati, questi recinti hanno le stesse unità di misura dei dati originali: questo è il senso di "distanza" nella domanda.

Per quanto riguarda i valori dei dati da identificare, Tukey ha scritto

Possiamo almeno identificare i valori estremi e potremmo fare bene a identificarne alcuni.

Qualsiasi metodo grafico per visualizzare la mediana, i cardini e i valori identificati merita probabilmente di essere chiamato un "diagramma a scatole" (originariamente "diagramma a scatole e baffi"). I recinti di solito non sono raffigurati. Il design di Tukey consiste in un rettangolo che descrive le cerniere con una "vita" sulla mediana. I "baffi" discreti simili a linee si estendono verso l'esterno dalle cerniere ai valori più interni identificati (sia sopra che sotto la scatola). Di solito questi valori più interni identificati sono i valori adiacenti definiti sopra.

Di conseguenza, l'aspetto predefinito di un diagramma a scatole è di estendere i baffi ai valori di dati non periferici più estremi e di identificare (tramite etichette di testo) i dati che comprendono le estremità dei baffi e tutti i valori anomali. Ad esempio, il vulcano Tupungatito è l'alto valore adiacente per i dati sulle altezze del vulcano raffigurati a destra della figura: il baffo si ferma lì. Tupungatito e tutti i vulcani più alti sono identificati separatamente.

Affinché ciò visualizzi fedelmente i dati, la distanza nel grafico è proporzionale alle differenze nei valori dei dati. (Qualsiasi discostamento dalla proporzionalità diretta introdurrebbe un "fattore di bugia" nella terminologia di Tufte (1983).)

Figura dell'EDA

Questi due grafici a scatole del libro EDA di Tukey (p. 41) illustrano i componenti. È interessante notare che ha identificato i valori non periferici alle estremità alte e basse del set di dati degli Stati a sinistra e un valore non periferico basso delle altezze del Vulcano a destra. Questo esemplifica l'interazione di regole e giudizio che pervade il libro.

(Puoi dire che questi dati identificati sono non periferici, perché puoi stimare le posizioni delle recinzioni. Ad esempio, le cerniere delle altezze dello stato sono vicine a 11.000 e 1.000, dando uno spread intorno a 10.000. Moltiplicando per 1,5 e 3 fornisce distanze di 15.000 e 30.000. Pertanto, la recinzione superiore invisibile deve essere vicino a 11.000 + 15.000 = 26.000 e la recinzione inferiore, a 1.000 - 15.000, sarebbe inferiore a zero. Le recinzioni lontane sarebbero vicine a 11.000 + 30.000 = 41.000 e 1.000 - 30.000 = -29.000).


Riferimenti

Tufte, Edward. La visualizzazione visiva di informazioni quantitative. Cheshire Press, 1983.

Tukey, John. Capitolo 2, EDA . Addison-Wesley, 1977.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.