Quali informazioni fornisce un diagramma a riquadro che un istogramma non fornisce?


13

Gli istogrammi danno un buon senso della distribuzione di una variabile. I diagrammi a riquadri tentano di fare la stessa cosa, tuttavia non forniscono un'immagine della distribuzione di questa variabile.

Non capisco perché le persone usano i grafici a scatole. Gli istogrammi sono migliori in ogni modo. C'è un motivo per cui li userei entrambi?

L'unica cosa che penso che le trame box forniscano è: valori anomali! Ci dice quali osservazioni possono essere anomale.


1
L'istogramma è in ogni modo peggiore di una rappresentazione dell'intera distribuzione?
Anthony Martin,

2
Dipende da ciò che vuoi, con un diagramma a scatole puoi avere dei valori precisi (es. Mediana, P75), che non hai con un istogramma. Visualizza meno informazioni, ma è più sintetico. Il mio punto è che anche un istogramma è una semplificazione e uno spreco di informazioni rispetto all'intera distribuzione. Ma può essere più facile da usare
Anthony Martin,

2
Un punto di vista contrario sull'utilità degli istogrammi è stato espresso in modo convincente, e ben illustrato, nel post altamente votato su stats.stackexchange.com/a/51753 (che può essere trovato cercando "istogramma" nel nostro sito).
whuber

3
Pensiero interessante - ma aumentare le dimensioni del cestino ridurrebbe l'istogramma a una figura simile a un diagramma a scatole pur mantenendo la sua sfortunata dipendenza dalla scelta dei punti di taglio. IMHO, i veri meriti dei grafici a scatole possono essere apprezzati meglio studiando l'uso di Tukey del sommario della lettera N per l'analisi esplorativa dei dati multivariati e ricordando che all'epoca stava calcolando con carta e matita. Per visualizzazioni come una "traccia schematica errante" altri riassunti univariati di risposte condizionali, come istogrammi o trame di violino, semplicemente non funzionerebbero.
whuber

1
I due guasti (imo) dell'istogramma si verificano quando ci sono pochi campioni o quando le scatole hanno dimensioni errate. La debolezza di un buon boxplot (e sto pensando che la variabilità di JMP quando lo dico) sono la multi-modalità e i dettagli precisi. Un punto in cui brilla il diagramma a scatole è quando ci sono pochi campioni. Mi piace anche quando ci sono un certo numero di variabili interagenti a diversi livelli, quindi il diagramma di variabilità di JMP.
EngrStudent

Risposte:


16

Il fatto che i diagrammi a riquadri forniscano più di un riepilogo di una distribuzione può anche essere visto come un vantaggio in alcuni casi. A volte quando si confrontano le distribuzioni non ci interessa la forma generale, ma piuttosto dove si trovano le distribuzioni l'una rispetto all'altra. Tracciare i quantili fianco a fianco può essere un modo utile per farlo senza distrarci con altri dettagli che potrebbero non interessarci.


1
Questa è la risposta migliore I grafici a scatole sono migliori per confrontare le distribuzioni rispetto agli istogrammi!
kjetil b halvorsen,

14

Nel caso univariato, i grafici a scatola forniscono alcune informazioni che l'istogramma non fornisce (almeno, non esplicitamente). Cioè, in genere fornisce la mediana, il 25 ° e il 75 ° percentile, min / max che non è un valore anomalo e separa esplicitamente i punti che sono considerati valori anomali. Tutto questo può essere "osservato" dall'istogramma (e potrebbe essere meglio essere osservato in caso di valori anomali).

Tuttavia, il vantaggio molto più grande è nel confrontare le distribuzioni tra molti gruppi diversi contemporaneamente. Con oltre 10 gruppi, questo è un compito stancante con istogrammi affiancati, ma molto semplice con grafici a scatole.

Come hai detto, le trame di violino (o trame di fagioli) sono alternative un po 'più istruttive. Tuttavia, richiedono una conoscenza statistica leggermente superiore rispetto ai grafici a scatola (ovvero se presentandosi a un pubblico non statistico, potrebbe essere un po 'più intimidatorio) e i grafici a scatola sono stati molto più lunghi degli stimatori della densità del kernel, quindi la loro maggiore popolarità.


3
+1. Correzione, tuttavia, i grafici a scatola forniscono mediane, non mezzi.
Greenparker

3
Tutti possono avere ragione. I diagrammi a scatola come di solito tracciati mostrano mediane (ho visto negare questo, ma non ricordo di aver visto un esempio). Ma alcune implementazioni ti consentono di mostrare anche i mezzi. Questa è spesso una buona idea.
Nick Cox,

Grazie per la segnalazione. Continuo (erroneamente) a pensare che di solito sia la media, il che potrebbe portare a trame molto strane in casi estremi.
Cliff AB,

1
sarebbe bello se ci fossero delle immagini da accompagnare a questo per mostrare il valore dei confronti fianco a fianco con grafici a scatole vs istogrammi
Rudolf Olah,

7
  1. Se ti faccio vedere un istogramma e ti chiedo dove sia la mediana, potresti passare un po 'di tempo a capirlo ... e poi otterrai solo un'approssimazione. Se faccio lo stesso con un boxplot, lo hai immediatamente; se questo è ciò che ti interessa, i boxplot ovviamente vincono.

  2. Concordo sul fatto che i grafici a scatole non sono efficaci come una descrizione della distribuzione di un singolo campione, poiché lo riducono a pochi punti e questo non ti dice molto.

    Tuttavia, se stai confrontando molte dozzine di distribuzioni, avere tutti i dettagli di ciascuna potrebbe essere più informazioni di quante ne sia facilmente paragonabile - potresti voler ridurre le informazioni a un numero inferiore di cose da confrontare.

  3. Se più informazioni sono migliori, ci sono molte scelte migliori rispetto all'istogramma; un diagramma di gambo e foglia, per esempio, o un diagramma ecdf / quantile.

    Oppure potresti aggiungere informazioni a un istogramma:

istogramma con trama a margine istogramma tappeto con jitter istogramma con diagramma a strisce

(trame da questa risposta )

Il primo di questi - l'aggiunta di un riquadro stretto al margine - ti dà tutti i vantaggi che puoi ottenere da entrambi i display.


1

I grafici a barre forniscono solo la gamma di frequenza delle osservazioni, mentre i grafici a scatole sono migliori nel dire dove si trovano diversi parametri di una distribuzione, media di esempio e varianze che i grafici a barre non possono. I grafici a scatole sono quindi usati come strumento comparativo efficace se si hanno diverse distribuzioni.


È raro che un diagramma a scatole mostri una media - quasi sempre usano le mediane - e non rappresentano mai direttamente le varianze. Si noti inoltre che queste quantità non sono generalmente considerate "parametri di una distribuzione": sono statistiche descrittive per un lotto di dati .
whuber

Esatto, sono uno strumento utile per descrivere una distribuzione senza fare troppi calcoli. E mostrano di più le mediane, e poiché in molti casi entrambe le misure coincidono, i grafici a scatole sono uno strumento utile per approssimare anche la media.
Shiv_90,

Il tuo commento sembra continuare a confondere i dati con la distribuzione sottostante . È molto raro che la media sia uguale alla mediana in qualsiasi lotto di dati. Inoltre, uno degli usi migliori e più comuni del diagramma a scatole è identificare l'asimmetria, che di solito implica un'importante differenza tra media e mediana. Uno dei principi fondamentali alla base della concezione originale del diagramma a scatole è che si tratta di un robusto strumento esplorativo, il che implica che è meglio non basarsi su statistiche sensibili come la media o la varianza.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.