È appropriato tracciare la media in un istogramma?


13

Va bene aggiungere una linea verticale a un istogramma per visualizzare il valore medio?

Mi sembra a posto, ma non l'ho mai visto nei libri di testo e simili, quindi mi chiedo se c'è una sorta di convenzione per non farlo?

Il grafico è per un term paper, voglio solo assicurarmi di non infrangere accidentalmente alcune regole di statistiche non dette super importanti. :)


Perchè no. Solo per aggiungere un commento. La media è un valore di riepilogo come l'istogramma. Ad esempio, è possibile variare il grado di informazione fornito variando, ad esempio, la dimensione del bucket dell'istogramma. Tuttavia, in genere l'istogramma fornisce più informazioni rispetto alla media. Puoi effettivamente approssimare il valore medio da un istogramma. Penso che sia per questo che di solito non vengono forniti insieme.
Simone,

A volte si vedono istogrammi con una distribuzione sovrapposta (ad es. Più comunemente nella mia esperienza, la distribuzione normale tracciata usando la media del campione e la deviazione standard.) Che sta facendo la stessa cosa (e un po 'di più) del tracciare una linea verticale (che indica dove il campione la media è con il picco della curva.)
James Stanley

Risposte:


30

Certo perché no?

istogramma con media

Ecco un esempio (una delle decine che ho trovato con una semplice ricerca su Google):

hist con media e mediana

(La fonte dell'immagine è il blog di misurazione dell'usabilità, qui .)

Ho visto mezzi, mezzi più o meno una deviazione standard, vari quantili (come mediana, quartili, decimo e novantesimo percentile) tutti visualizzati in vari modi.

Invece di tracciare una linea lungo la trama, puoi contrassegnare le informazioni lungo la parte inferiore di essa, in questo modo:

istogramma con trama a margine

C'è un esempio (uno dei tanti da trovare) con un diagramma a scatole nella parte superiore anziché nella parte inferiore, qui .

A volte le persone segnano nei dati:

istogramma tappeto con jitter
(Ho spostato leggermente le posizioni dei dati perché i valori erano arrotondati a numeri interi e non si vedeva bene la densità relativa.)

C'è un esempio di questo tipo, fatto in Stata, in questa pagina (vedi il terzo qui )

Gli istogrammi sono migliori con un po 'di informazioni extra: possono essere fuorvianti da soli

Devi solo aver cura di spiegare in cosa consiste la tua trama! (Vorresti un titolo e un'etichetta dell'asse x migliori di quelli che ho usato qui, per cominciare. Inoltre una spiegazione in una didascalia che spiega cosa hai segnato su di esso.)

-

Un'ultima trama:

istogramma con diagramma a strisce

-

Le mie trame sono generate in R.

Modificare:

Come supponeva @gung, è abline(v=mean...stato usato per disegnare la linea media attraverso il grafico ed è rugstato usato per disegnare i valori dei dati (anche se in realtà l'ho usato rug(jitter(...perché i dati sono stati arrotondati a numeri interi).

Ecco un modo per eseguire il diagramma a scatole tra l'istogramma e l'asse:

hist(Davis2[,2],n=30)
boxplot(Davis2[,2],
  add=TRUE,horizontal=TRUE,at=-0.75,border="darkred",boxwex=1.5,outline=FALSE)

Non ho intenzione di elencare ciò che serve, ma puoi controllare gli argomenti nella guida ( ?boxplot) per scoprire a cosa servono e giocare con loro.

Tuttavia, non è una soluzione generale - non garantisco che funzionerà sempre così come qui (nota che ho già cambiato il ateboxwex opzioni *). Se non si scrive una funzione intelligente per occuparsi di tutto, è necessario prestare attenzione a ciò che fa tutto per assicurarsi che stia facendo ciò che si desidera.

Ecco come creare i dati che ho usato (stavo cercando di mostrare come la regressione di Theil fosse davvero in grado di gestire diversi valori anomali influenti). Mi è capitato di essere dati con cui stavo giocando quando ho risposto per la prima volta a questa domanda.

 library("car")
 add <- data.frame(sex=c("F","F"),
       weight=c(150,130),height=c(NA,NA),repwt=c(55,50),repht=c(NA,NA))
 Davis2 <- rbind(Davis,add)

* - un valore appropriato per atè circa -0,5 volte il valore di boxwex; sarebbe un buon default se scrivi una funzione per farlo; boxwexdovrebbe essere ridimensionato in modo correlato alla scala y (altezza) del diagramma a scatole; Suggerirei da 0,04 a 0,05 volte che il limite y superiore potrebbe spesso andare bene.

Codice per il diagramma a strisce marginale:

 hist(Davis2[,2],n=30)
 stripchart(jitter(Davis2[,2],amount=.5),
       method="jitter",jitter=.5,pch=16,cex=.05,add=TRUE,at=-.75,col='purple3')

+1, questi sono carini; Vuoi aggiungere il codice? abline(v=mean(Davis2[,2]))E rug(Davis2[,2])immagino, ma come hai fatto a incastrare la trama?
gung - Ripristina Monica

1
@gung Vedi la modifica per brevi dettagli, incluso un esempio riproducibile simile a quello con il boxplot. In realtà non sta facendo nulla di più intelligente che utilizzare alcuni degli argomenti della boxplotfunzione. Tra boxplote boxppuoi fare alcune cose piuttosto eleganti con il minimo sforzo.
Glen_b

Saggezza per i secoli: "Se non scrivi una funzione intelligente per occuparti di tutto, è necessario prestare attenzione a ciò che fa tutto per assicurarsi che stia facendo quello che vuoi" ;-).
gung - Ripristina Monica

Sì. Ho anche pensato di scrivere qualcosa di intelligente da impostare ate boxwexcosì via ... ma nella migliore delle ipotesi faccio solo un paio di trame come quella un anno, e ogni volta ci vogliono pochi secondi per digitare? Boxplot e impostare le giuste opzioni. Ho pensato che fosse più semplice prestare attenzione a quello che sto facendo.
Glen_b

@gung Ho modificato per dare il codice per creare i dati Davis2 che stavo usando. Spero possa aiutare.
Glen_b

3

Certo che puoi. Assicurati di etichettare chiaramente / indicare cosa significa la linea ed evitare di rendere la trama troppo "occupata".

Niente è peggio di un grafico che trasmette troppe informazioni per essere facilmente comprensibile. La tabella è un modo spesso trascurato per visualizzare statistiche riassuntive in modo chiaro e conciso.


2

Le risposte precedenti indicano punti eccellenti, ma qui è fondamentale aggiungerne uno.

La media è il baricentro di una distribuzione e quindi il punto di articolazione di un istogramma. È dove la distribuzione sarebbe bilanciata. Quindi, esiste una relazione reciproca: non solo la media può aiutarti a pensare a un istogramma, ma anche un istogramma può aiutarti a pensare alla media. Ciò è forse ancora più utile quando una distribuzione è inclinata e la media della distribuzione non è necessariamente nel mezzo.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.