Perché la media tende a essere più stabile in campioni diversi rispetto alla mediana?


22

La sezione 1.7.2 di Rilevazione delle statistiche usando R di Andy Fields, et all, mentre elenca le virtù della media rispetto alla mediana, afferma:

... la media tende ad essere stabile in diversi campioni.

Questo dopo aver spiegato le molte virtù della mediana, ad es

... La mediana non è relativamente influenzata da punteggi estremi alle estremità della distribuzione ...

Dato che la mediana non è relativamente influenzata da punteggi estremi, avrei pensato che fosse più stabile tra i campioni. Quindi sono rimasto perplesso dall'affermazione degli autori. Per confermare ho eseguito una simulazione: ho generato 1 milione di numeri casuali e ho campionato 100 numeri 1000 volte e calcolato media e mediana di ciascun campione, quindi ho calcolato l'sd di tali medie e mediane del campione.

nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)

Come puoi vedere, i mezzi sono più strettamente distribuiti rispetto ai mediani.

inserisci qui la descrizione dell'immagine

Nell'immagine allegata l'istogramma rosso è per mediane - come puoi vedere è meno alto e ha una coda più grassa che conferma anche l'affermazione dell'autore.

Sono sbalordito da questo, però! In che modo la mediana più stabile tende a variare maggiormente tra i campioni? Sembra paradossale! Ogni approfondimento è apprezzato.


1
Sì, ma provalo campionando da nums <- rt (n = 10 ** 6, 1.1). Quella distribuzione t1.1 fornirà un sacco di valori estremi, non necessariamente bilanciati tra positivo e negativo (altrettanto buona possibilità di ottenere un altro valore estremo positivo come un valore estremo negativo da bilanciare), che causerà una gigantesca varianza in . Questo è ciò contro cui scudi mediani. La distribuzione normale è improbabile che invia i valori estremi soprattutto per allungare la ˉ x distribuzione più ampia rispetto mediana. x¯x¯
Dave,

10
La dichiarazione dell'autore non è generalmente vera. (Abbiamo ricevuto molte domande qui relative agli errori nei libri di questo autore, quindi questa non è una sorpresa.) I controesempi standard si trovano tra le "distribuzioni stabili" , dove la media è tutt'altro che "stabile" (in qualsiasi ragionevole senso di il termine) e la mediana è molto più stabile.
whuber

1
"... la media tende ad essere stabile in diversi campioni." è un'assurdità. la "stabilità" non è ben definita. La media (campione) è effettivamente abbastanza stabile in un singolo campione perché è una quantità non casuale. Se i dati sono "instabili" (altamente variabili?) Anche la media è "instabile".
AdamO

1
A questa domanda è probabilmente data risposta dalle analisi dettagliate offerte da stats.stackexchange.com/questions/7307 , in cui la stessa domanda viene posta in un modo specifico (in cui il senso di "stabile" è ben definito).
whuber

2
Prova a sostituirlo rnormcon rcauchy.
Eric Towers,

Risposte:


3

La mediana è estremamente robusta per i valori anomali, ma altamente suscettibile al rumore. Se si introduce una piccola quantità di rumore in ciascun punto, questo entrerà nella mediana non attenuata fintanto che il rumore è abbastanza piccolo da non cambiare l'ordine relativo dei punti. Per la verità è il contrario. Il rumore viene calcolato in media, ma un singolo valore anomalo può modificare la media in modo arbitrario.

Il test misura principalmente la robustezza al rumore, ma puoi facilmente crearne uno in cui la mediana si comporta meglio. Se vuoi uno stimatore che sia robusto sia per i valori anomali che per il rumore, getta via il terzo superiore e inferiore e calcola la media del resto.


Esiste un nome più specifico per questo algoritmo rispetto a " media del 33% "?
David Cary il

25

Come hanno detto @whuber e altri, l'affermazione non è vera in generale. E se sei disposto a essere più intuitivo - non riesco a tenere il passo con i profondi fanatici della matematica qui intorno - potresti guardare altri modi in cui media e mediana sono stabili o meno. Per questi esempi, supponi un numero dispari di punti in modo da poter mantenere le mie descrizioni coerenti e semplici.

  1. Immagina di aver sparso punti su una linea numerica. Ora immagina di prendere tutti i punti sopra il centro e di spostarli fino a 10 volte i loro valori. La mediana è invariata, la media si è spostata in modo significativo. Quindi la mediana sembra più stabile.

  2. Ora immagina che questi punti siano abbastanza sparsi. Spostare il punto centrale su e giù. Una mossa di una unità cambia la mediana di una, ma sposta a malapena la media. La mediana ora sembra meno stabile e più sensibile ai piccoli movimenti di un singolo punto.

  3. Ora immagina di prendere il punto più alto e spostarlo agevolmente dal punto più alto a quello più basso. Anche la media si sposterà senza intoppi. Ma la mediana non si sposta continuamente: non si sposta affatto fino a quando il punto più alto non diventa più basso della mediana precedente, quindi inizia a seguire il punto fino a quando non scende al di sotto del punto successivo, quindi la mediana si attacca a quel punto e di nuovo no muoviti mentre continui a spostare il punto verso il basso. [Modificato per commento]

Quindi, diverse trasformazioni dei tuoi punti fanno sembrare in qualche modo media o mediana meno liscia o stabile. Gli esperti di matematica qui ti hanno mostrato le distribuzioni da cui puoi campionare, che corrispondono più da vicino al tuo esperimento, ma speriamo che questa intuizione sia di aiuto.


1
Riguardo al punto 3: la mediana non si sposterebbe senza intoppi? Dire che il set iniziale di punti è [1, 3, 5, 7, 9]. Inizialmente la mediana è 5. Rimarrà la mediana fino a quando il quinto punto (inizialmente 9) scenderà sotto 5, a quel punto la mediana seguirà senza problemi il quinto punto mentre diminuisce, fino a quando non colpisce 3, a quel punto la mediana rimarrà 3. Quindi anche se il punto che definisce la mediana è "saltare" (dal terzo punto, al quinto punto, al secondo punto), il valore effettivo della mediana non ha salto / discontinuità.
Scott M

@ScottM Mi sembra giusto. Non sono sicuro del perché pensassi che sarebbe saltato. Mi riscriverò quando ne avrò la possibilità.
Wayne,

18

Supponiamo di avere n punti dati da una distribuzione continua sottostante con media μ e varianzaσ2<fmf~f~(z)=σf(μ+σz)zR. La varianza asintotica della media del campione e della mediana del campione è data rispettivamente da:

V(X¯n)=σ2nV(X~n)σ2n14f~(mμσ)2.

Pertanto abbiamo:

V(X¯n)V(X~n)4f~(mμσ)2.

n

V(X¯n)<V(X~n)ff~(mμσ)<12.

nf=1/2π=0.3989423<1/2


Eccezionale! Grazie.
Alok Lal

4

Commento: solo per ripetere la tua simulazione, usando una distribuzione per la quale SD di mezzi e mediane hanno il risultato opposto:

In particolare, numsora provengono da una distribuzione di Laplace (anche chiamata "doppia esponenziale"), che può essere simulata come la differenza di due distribuzioni esponenziali con la stessa velocità (qui la velocità di default 1). [Forse vedi Wikipedia sulle distribuzioni di Laplace.]

set.seed(2019)
nums = rexp(10^6) - rexp(10^6)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10^3) { b = sample(x=nums, 10^2); 
  medians[i]= median(b); means[i]=mean(b) }
sd(means)
[1] 0.1442126
sd(medians)
[1] 0.1095946   # <-- smaller

hist(nums, prob=T, br=70, ylim=c(0,.5),  col="skyblue2")
 curve(.5*exp(-abs(x)), add=T, col="red")

inserisci qui la descrizione dell'immagine

Nota: Un altro semplice possibilità, esplicitamente menzionato nel collegamento di @ whuber, è Cauchy, che può essere simulato la distribuzione t di Student con un grado di libertà, rt(10^6, 1). Tuttavia, le sue code sono così pesanti che creare un bel istogramma è problematico.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.