Valore atteso della mediana del campione data la media del campione


16

Sia Y denota la mediana e sia X¯ la media, di un campione casuale di dimensione n=2k+1 da una distribuzione che è N(μ,σ2) . Come posso calcolare E(Y|X¯=x¯) ?

Intuitivamente, a causa del presupposto della normalità, ha senso affermare che E(Y|X¯=x¯)=x¯ e in effetti questa è la risposta corretta. Può essere mostrato rigorosamente però?

Il mio pensiero iniziale era di affrontare questo problema usando la distribuzione normale condizionale che è generalmente un risultato noto. Il problema è che dal momento che non conosco il valore atteso e di conseguenza la varianza della mediana, dovrei calcolare quelli che usano la statistica k+1 ordine. Ma è molto complicato e preferirei non andare lì a meno che non sia assolutamente necessario.


2
Credo che questa sia una conseguenza immediata della generalizzazione che ho appena pubblicato su stats.stackexchange.com/a/83887 . La distribuzione dei residui è chiaramente simmetrica su 0 , quindi la loro mediana ha una distribuzione simmetrica, quindi la sua media è zero. Pertanto l'aspettativa della mediana stessa (non solo dei residui) è uguale a 0 + E ( ˉ X | ˉ X = ˉ x ) = ˉ x , QED. xix¯00+E(X¯ | X¯=x¯)=x¯
whuber

@whuber Siamo spiacenti, residui?
JohnK,

Li ho definiti nel mio commento: sono le differenze tra ogni e la loro media. xi
whuber

@whuber No Capisco, ma sto ancora lavorando per capire come la tua altra risposta si collega alla mia domanda e come funziona esattamente l'attesa che hai usato.
JohnK,

2
@whuber Ok, allora per favore correggimi Se sbaglio, E ora il secondo termine è zero perché il la mediana è simmetrica attorno a ˉ x . Pertanto, l'aspettativa si riduce a ˉ xE(Y|X¯)=E(X¯|X¯)+E(YX¯|X¯)x¯x¯
JohnK

Risposte:


7

Lasciare denotano il campione originale e Z il vettore casuale con voci Z k = X k - ˉ X . Quindi Z è normalmente centrato (ma le sue voci non sono indipendenti, come si può vedere dal fatto che la loro somma è zero con piena probabilità). Come una funzione lineare di X , il vettore ( Z , ˉ X ) è normale, quindi il calcolo della sua matrice di covarianza è sufficiente per dimostrare che Z è indipendente daXZZk=XkX¯ZX(Z,X¯)Z .X¯

Passando alla , si vede che Y = ˉ X + T dove T è la mediana di Z . In particolare, T dipende solo da Z, quindi T è indipendente da ˉ X e la distribuzione di Z è simmetrica, quindi T è centrato.YY=X¯+TTZTZTX¯ZT

Infine,

E(YX¯)=X¯+E(TX¯)=X¯+E(T)=X¯.

Grazie, questo è stato chiesto quasi un anno fa e sono molto contento che qualcuno alla fine l'abbia chiarito.
JohnK,

7

The sample median is an order statistic and has a non-normal distribution, so the joint finite-sample distribution of sample median and sample mean (which has a normal distribution) would not be bivariate normal. Resorting to approximations, asymptotically the following holds (see my answer here):

n[(X¯nYn)(μv)]LN[(00),Σ]

with

Σ=(σ2E(|Xv|)[2f(v)]1E(|Xv|)[2f(v)]1[2f(v)]2)

X¯nμYnvf()σ2

Quindi approssimativamente per campioni di grandi dimensioni, la loro distribuzione articolare è normale bivariata, quindi ce l'abbiamo

E(YnX¯n=x¯)=v+ρσvσX¯(x¯μ)

where ρ is the correlation coefficient.

Manipulating the asymptotic distribution to become the approximate large-sample joint distribution of sample mean and sample median (and not of the standardized quantities), we have

ρ=1nE(|Xv|)[2f(v)]11nσ[2f(v)]1=E(|Xv|)σ

So

E(YnX¯n=x¯)=v+E(|Xv|)σ[2f(v)]1σ(x¯μ)

We have that 2f(v)=2/σ2π due to the symmetry of the normal density so we arrive at

E(YnX¯n=x¯)=v+π2E(|Xμσ|)(x¯μ)

where we have used v=μ. Now the standardized variable is a standard normal, so its absolute value is a half-normal distribution with expected value equal to 2/π (since the underlying variance is unity). So

E(YnX¯n=x¯)=v+π22π(x¯μ)=v+x¯μ=x¯

2
As always, nice answer +1. However, since we have no information about the sample size, the asymptotic distribution might not hold. If there is no way to obtain the exact distribution though, I suppose I'll have to make do. Thank you very much.
JohnK

6

The answer is x¯.

Let x=(x1,x2,,xn) have a multivariate distribution F for which all the marginals are symmetric about a common value μ. (It does not matter whether they are independent or even are identically distributed.) Define x¯ to be the arithmetic mean of the xi, x¯=(x1+x2++xn)/n and write xx¯=(x1x¯,x2x¯,,xnx¯) for the vector of residuals. The symmetry assumption on F implies the distribution of xx¯ is symmetric about 0; that is, when ERn is any event,

PrF(xx¯E)=PrF(xx¯E).

Applying the generalized result at /stats//a/83887 shows that the median of xx¯ has a symmetric distribution about 0. Assuming its expectation exists (which is certainly the case when the marginal distributions of the xi are Normal), that expectation has to be 0 (because the symmetry implies it equals its own negative).

Now since subtracting the same value x¯ from each of a set of values does not change their order, Y (the median of the xi) equals x¯ plus the median of xx¯. Consequently its expectation conditional on x¯ equals the expectation of xx¯ conditional on x¯, plus E(x¯ | x¯). The latter obviously is x¯ whereas the former is 0 because the unconditional expectation is 0. Their sum is x¯, QED.


Thank you for posting it as a full answer. I now understand the essence of your argument but I might ping you if something is still unclear.
JohnK

5
JohnK, I need to alert you to be cautious. A counterexample to this argument has been brought to my attention. I have encouraged its originator to post it here for further discussion, but briefly it concerns a discrete bivariate distribution with symmetric marginals but asymmetric conditional marginals. Its existence points to a flawed deduction early in my argument. I currently hope that the argument might be rescued by imposing stronger conditions on the xi, but my attention is presently focused elsewhere and I might not get to think about this for awhile.
whuber

4
In the meantime I would encourage you to unaccept this answer. I would ordinarily delete any answer of mine known to be incorrect, but (as you might be able to tell) I like solutions based on first principles rather than detailed calculations, so I hope this argument can be rescued. I therefore intend to leave it open for criticism and improvement (and therefore made it CW); let the votes fall as they may.
whuber

Of course, thanks for letting me know. We will discuss it further when you have time. In the meantime I will settle for the asymptotic argument proposed by @Alecos Papadopoulos.
JohnK

6

This is simpler than the above answers make it. The sample mean is a complete and sufficient statistic (when the variance is known, but our results do not depend on the variance, hence will be valid also in the situation when the variance is unknown). Then the Rao-Blackwell together with the Lehmann-Scheffe theorems (see wikipedia ...) will imply that the conditional expectation of the median, given the arithmetic mean, is the unique minimum variance unbiased estimator of the expectation μ. But we know that is the arithmetic mean, hence the result follows.

We did also use that the median is an unbiased estimator, which follows from symmetry.


1
By symmetry E[Y]=μ, indeed. Then from these two theorems we know that E[Y|X¯] is the Unique Minimum Variance Unbiased Estimator for μ which we already know to be equal to X¯. This is a brilliant answer, thank you very much. I would have marked it as the correct one, had I not done that already for another answer.
JohnK
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.