La sezione 1.7.2 di Rilevazione delle statistiche usando R di Andy Fields, et all, mentre elenca le virtù della media rispetto alla mediana, afferma:
... la media tende ad essere stabile in diversi campioni.
Questo dopo aver spiegato le molte virtù della mediana, ad es
... La mediana non è relativamente influenzata da punteggi estremi alle estremità della distribuzione ...
Dato che la mediana non è relativamente influenzata da punteggi estremi, avrei pensato che fosse più stabile tra i campioni. Quindi sono rimasto perplesso dall'affermazione degli autori. Per confermare ho eseguito una simulazione: ho generato 1 milione di numeri casuali e ho campionato 100 numeri 1000 volte e calcolato media e mediana di ciascun campione, quindi ho calcolato l'sd di tali medie e mediane del campione.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Come puoi vedere, i mezzi sono più strettamente distribuiti rispetto ai mediani.
Nell'immagine allegata l'istogramma rosso è per mediane - come puoi vedere è meno alto e ha una coda più grassa che conferma anche l'affermazione dell'autore.
Sono sbalordito da questo, però! In che modo la mediana più stabile tende a variare maggiormente tra i campioni? Sembra paradossale! Ogni approfondimento è apprezzato.
rnorm
con rcauchy
.