Per quali distribuzioni (simmetriche) il campione significa uno stimatore più efficiente della mediana del campione?

17

Ho lavorato con la convinzione che la mediana del campione sia una misura più robusta della tendenza centrale rispetto alla media del campione, poiché ignora i valori anomali. Sono stato quindi sorpreso di apprendere (nella risposta a un'altra domanda ) che per i campioni prelevati da una distribuzione normale, la varianza della media del campione è inferiore alla varianza della mediana del campione (almeno per grande ). $n$

Capisco matematicamente perché questo è vero. Esiste un modo "filosofico" di considerare ciò che potrebbe aiutare con l'intuizione su quando usare la mediana piuttosto che la media per altre distribuzioni?

Esistono strumenti matematici che aiutano a rispondere rapidamente alla domanda per una particolare distribuzione?

— Josh Brown Kramer
fonte

20

Supponiamo di limitare la considerazione alle distribuzioni simmetriche in cui la media e la varianza sono limitate (quindi il Cauchy, ad esempio, è escluso dalla considerazione).

Inoltre, inizialmente mi limiterò a casi unimodali continui, e in effetti soprattutto a situazioni "carine" (anche se potrei tornare più tardi e discutere alcuni altri casi).

La varianza relativa dipende dalla dimensione del campione. È comune discutere il rapporto tra ( volte) le varianze asintotiche, ma dovremmo tenere presente che a campioni di dimensioni inferiori la situazione sarà leggermente diversa. (La mediana a volte è notevolmente migliore o peggiore di quanto suggerirebbe il suo comportamento asintotico. Ad esempio, alla normalità con ha un'efficienza di circa il 74% anziché del 63%. Il comportamento asintotico è generalmente una buona guida a moderato dimensioni del campione, tuttavia.) $n$ $n=3$

Gli asintotici sono abbastanza facili da gestire:

Media: varianza = . $n\times$ $\sigma^2$

Mediana : variance = dove è l'altezza della densità nella mediana. $n\times$ $\frac{1}{[4f(m)^2]}$ $f(m)$

Quindi se , la mediana sarà asintoticamente più efficiente. $f(m)>\frac{1}{2\sigma}$

[Nel caso normale, , quindi , da cui l'efficienza relativa asintotica di )] $f(m)= \frac{1}{\sqrt{2\pi}\sigma}$ $\frac{1}{[4f(m)^2]}=\frac{\pi\sigma^2}{2}$ $2/\pi$

Possiamo vedere che la varianza della mediana dipenderà dal comportamento della densità molto vicino al centro, mentre la varianza della media dipende dalla varianza della distribuzione originale (che in un certo senso è influenzata dalla densità ovunque, e in particolare, più dal modo in cui si comporta più lontano dal centro)

Vale a dire, mentre la mediana è meno influenzata dai valori anomali rispetto alla media e spesso vediamo che ha una varianza inferiore rispetto alla media quando la distribuzione è pesante (che produce più valori anomali), ciò che guida realmente le prestazioni del la mediana è inlier . Accade spesso che (per una varianza fissa) i due tendano ad andare insieme.

Cioè, a grandi linee, man mano che la coda diventa più pesante, c'è una tendenza per (a un valore fisso di ) che la distribuzione diventi più "picco" allo stesso tempo (più kurtotic, in senso lato). Questo non è, tuttavia, una cosa certa - tende ad essere il caso in una vasta gamma di densità comunemente considerate, ma non sempre regge. Quando tiene, la varianza della mediana si riduce (perché la distribuzione ha più probabilità nelle immediate vicinanze della mediana), mentre la varianza della media viene mantenuta costante (perché abbiamo corretto ). $\sigma^2$ $\sigma^2$

Quindi, in una varietà di casi comuni, la mediana tende spesso a fare "meglio" della media quando la coda è pesante, (ma dobbiamo tenere presente che è relativamente facile costruire controesempi). Quindi possiamo considerare alcuni casi, che possono mostrarci ciò che vediamo spesso, ma non dovremmo leggere troppo in essi, perché la coda più pesante non va universalmente con un picco più alto.

Sappiamo che la mediana è circa il 63,7% più efficiente (per grande) della media al normale. $n$

Che dire, dire una distribuzione logistica , che come la normale è approssimativamente parabolica rispetto al centro, ma ha code più pesanti (quando diventa grande, diventa esponenziale). $x$

Se prendiamo il parametro scale come 1, la logistica ha varianza e altezza alla mediana di 1/4, quindi $\pi^2/3$ . Il rapporto delle varianze è quindicosì grandi campioni, la mediana è approssimativamente 82% efficiente come la media. $\frac{1}{4f(m)^2}=4$ $\pi^2/12\approx 0.82$

Consideriamo altre due densità con code simili a esponenziali, ma con un picco diverso.

Innanzitutto, la distribuzione iperbolica ( ) $\text{sech}$ , per la quale la forma standard ha varianza 1 e altezza al centro di , quindi il rapporto delle varianze asintotiche è 1 (i due sono ugualmente efficienti in campioni di grandi dimensioni). Tuttavia, in piccoli campioni la media è più efficiente (la sua varianza è circa il 95% di quella per la mediana quando, per esempio). $\frac{1}{2}$ $n=5$

Qui possiamo vedere come, mentre avanziamo attraverso quelle tre densità (mantenendo costante la varianza), che l'altezza alla mediana aumenta:

enter image description here

Possiamo farlo andare ancora più in alto? Anzi, possiamo. Considera, ad esempio, il doppio esponenziale . La forma standard ha varianza 2 e l'altezza alla mediana è (quindi se scaliamo alla varianza unitaria come nel diagramma, il picco è a $\frac{1}{2}$ , appena sopra 0,7). La varianza asintotica della mediana è metà della media. $\frac{1}{\sqrt{2}}$

Se rendiamo la distribuzione ancora più alta per una data varianza (forse rendendo la coda più pesante che esponenziale), la mediana può essere ancora molto più efficiente (relativamente parlando). Non c'è davvero limite a quanto può arrivare quel picco.

$\nu=5$

...

A dimensioni del campione finite, a volte è possibile calcolare esplicitamente la varianza della distribuzione della mediana. Laddove ciò non sia fattibile - o anche solo inopportuno - possiamo usare la simulazione per calcolare la varianza della mediana (o il rapporto della varianza *) tra campioni casuali estratti dalla distribuzione (che è quello che ho fatto per ottenere le piccole figure campione sopra ).

* Anche se spesso non abbiamo effettivamente bisogno della varianza della media, poiché possiamo calcolarla se conosciamo la varianza della distribuzione, potrebbe essere più efficiente dal punto di vista computazionale farlo, poiché agisce come una variabile di controllo (la media e mediana sono spesso abbastanza correlate).

— Glen_b - Ripristina Monica
fonte

1

f (x) = \frac{1}{2} e^{- | x - μ |}, - \infty < x < \infty

$f(x) = \frac12 e^{-|x-\mu|} , \quad -\infty < x < \infty$

μ

$\mu$

X_{1}, X_{2}, \dots, X_{n}

$X_1, X_2, \dotsc , X_n$

2 / n

$2/n$

\frac{1}{4 n f (μ)^{2}} = \frac{1}{4 n / 4} = 1 / n < 2 / n

$\frac1{4 n f(\mu)^2} = \frac1{4 n / 4} = 1/n < 2/n$

$\sigma^2 = 1$ $1/n$ $n$ $\frac1{4 n (1/\sqrt{2\pi})^2} = \frac{\pi}{2 n} \approx 1.57/n > 1/n$

— kjetil b halvorsen
fonte