Mostra la media anziché la mediana nel boxplot [chiuso]


15

Quando si stampa un diagramma a riquadri con matplotblib in pitone, le linee a metà del diagramma sono la mediana della distribuzione.

C'è una possibilità invece di avere la linea in media. O per tracciarlo accanto ad esso in uno stile diverso.

Inoltre, poiché è comune che la linea sia la mediana, confonderò davvero i miei lettori se la trasformerò nella media (ovviamente aggiungerò una nota quale è la linea di mezzo)?

Risposte:


25

Questo codice crea i grafici a scatole, quindi posiziona un cerchio che indica la media per ogni casella. È possibile utilizzare un simbolo diverso specificando l' argomento marker nella chiamata a scatter.

import numpy as np
import pylab

# 3 boxes
data = [[np.random.rand(100)] for i in range(3)]
pylab.boxplot(data)

# mark the mean    
means = [np.mean(x) for x in data]
pylab.scatter([1, 2, 3], means)

testo alternativo


3
Vedi stackoverflow.com/questions/2492947/… per soluzioni che utilizzano R
James

1
@James: non sto cercando di fare il cretino e di individuarti, ma il tuo commento mi fa una domanda. Perché ogni volta che qualcuno su questo forum chiede esplicitamente come fare qualcosa usando un linguaggio non-R (dato che R è di fatto predefinito), qualcuno deve sempre suggerire di usare R? Non trovo molto il contrario. I programmatori SAS generalmente non commentano "Come posso fare X in R?" domande con "Ecco come farlo in SAS ...". So che la gente ama R (e lo faccio anche io), ma ...
Josh Hemann,

20

Per rispondere alla tua seconda domanda: Sì, penso che sarà confuso mettere la linea nella media anziché nella mediana. Le regole precise che controllano la lunghezza dei "baffi" (se presenti) e il trattamento dei valori anomali variano, ma tutti continuano a usare la scatola di Tukey come visualizzazione dei quartili mediano e inferiore e superiore. Per distribuzioni altamente distorte, la media potrebbe essere fuori dagli schemi, il che sembrerebbe molto strano. L'uso comune è che la mediana va con l'intervallo interquartile, mentre la media va con deviazione standard (o errore standard della media se sei interessato all'inferenza piuttosto che alla descrizione dei dati). Se vuoi mostrare visivamente la media, userei un simbolo diverso per visualizzarla per evitare confusione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.