Valore massimo del coefficiente di variazione per il set di dati limitato


17

Nella discussione a seguito di una recente domanda sul fatto che la deviazione standard possa eccedere la media, è stata sollevata brevemente una domanda, ma alla quale non è mai stata data una risposta completa. Quindi lo sto chiedendo qui.

Si consideri un insieme di nn numeri non negativi x ixi dove 0 x ic0xic per 1 i n1in . Non è necessario che il x ioxi essere distinti, cioè l'insieme potrebbe essere un multiset. La media e la varianza dell'insieme sono definite come ˉ x = 1n n i=1xi,σ 2 x =1  n n i=1(xi- ˉ x )2=(1n n i=1x 2 i )- ˉ x 2

x¯=1ni=1nxi,  σ2x=1ni=1n(xix¯)2=(1ni=1nx2i)x¯2
e la deviazione standard èσxσx. Si noti che l'insieme di numerinonèun campione di una popolazione e non stiamo stimando una media della popolazione o una varianza della popolazione. La domanda quindi è:

Qual è il valore massimo di σ xˉ xσxx¯ , il coefficiente di variazione, su tutte le scelte dixixinell'intervallo[0,c][0,c]?

Il valore massimo che posso trovare per σ xˉ xσxx¯ èn - 1n1 che si ottiene quandon-1n1dixhoxivalore00e il rimanente (anomalo)xixi ha valorecc, dando ˉ x = cn ,1  nx 2 i =c2nσx=c 2n -c2n 2 =cnn - 1 .

x¯=cn,  1nx2i=c2nσx=c2nc2n2=cnn1.
Ma questo non dipende affatto dacc, e mi chiedo sepossano essere raggiuntivalori più grandi, possibilmente dipendenti sia dannche dacc.

Qualche idea? Sono sicuro che questa domanda sia stata precedentemente studiata nella letteratura statistica e quindi i riferimenti, se non i risultati effettivi, sarebbero molto apprezzati.


Penso che tu abbia ragione sul fatto che sia il valore più grande possibile, e sono anche sorpreso che cc non abbia importanza. Freddo.
Peter Flom - Ripristina Monica

7
cc non dovrebbe influenzare il risultato come σ xˉ xσxx¯ non cambia se tutti i valori sono moltiplicati per qualsiasi costante positivakk.
Henry,

Risposte:


15

La geometria fornisce intuizioni e le disuguaglianze classiche consentono un facile accesso al rigore.

Soluzione geometrica

Sappiamo, dalla geometria dei minimi quadrati , che ˉ x = ( ˉ x , ˉ x , , ˉ x ) è la proiezione ortogonale del vettore dei dati x = ( x 1 , x 2 , , x n ) su il sottospazio lineare generato dal vettore costante ( 1 , 1 , , 1 ) e che σ xx¯=(x¯,x¯,,x¯)x=(x1,x2,,xn)(1,1,,1)σxè direttamente proporzionale alla (euclidea) distanza tra x e ˉ x . I vincoli di non negatività sono lineari e la distanza è una funzione convessa, da cui gli estremi della distanza devono essere raggiunti ai bordi del cono determinati dai vincoli. Questo cono è l'ortante positivo in R n e i suoi bordi sono gli assi delle coordinate, da cui segue immediatamente che tutti tranne uno di x i devono essere zero alle distanze massime. Per un tale insieme di dati, un calcolo diretto (semplice) mostra σ x / ˉ x = xx¯.Rnxin .σx/x¯=n.

Soluzione che sfrutta le disuguaglianze classiche

σx/ˉxσx/x¯ is optimized simultaneously with any monotonic transformation thereof. In light of this, let's maximize

x21+x22++x2n(x1+x2++xn)2=1n(n1n(σxˉx)2+1)=f(σxˉx).

x21+x22++x2n(x1+x2++xn)2=1n(n1n(σxx¯)2+1)=f(σxx¯).

(The formula for ff may look mysterious until you realize it just records the steps one would take in algebraically manipulating σx/ˉxσx/x¯ to get it into a simple looking form, which is the left hand side.)

An easy way begins with Holder's Inequality,

x21+x22++x2n(x1+x2++xn)max({xi}).

x21+x22++x2n(x1+x2++xn)max({xi}).

(This needs no special proof in this simple context: merely replace one factor of each term x2i=xi×xix2i=xi×xi by the maximum component max({xi})max({xi}): obviously the sum of squares will not decrease. Factoring out the common term max({xi})max({xi}) yields the right hand side of the inequality.)

Because the xixi are not all 00 (that would leave σx/ˉxσx/x¯ undefined), division by the square of their sum is valid and gives the equivalent inequality

x21+x22++x2n(x1+x2++xn)2max({xi})x1+x2++xn.

x21+x22++x2n(x1+x2++xn)2max({xi})x1+x2++xn.

Because the denominator cannot be less than the numerator (which itself is just one of the terms in the denominator), the right hand side is dominated by the value 11, which is achieved only when all but one of the xixi equal 00. Whence

σxˉxf1(1)=(1×(n1))nn1=n.

σxx¯f1(1)=(1×(n1))nn1=n.

Alternative approach

Because the xixi are nonnegative and cannot sum to 00, the values p(i)=xi/(x1+x2++xn)p(i)=xi/(x1+x2++xn) determine a probability distribution FF on {1,2,,n}{1,2,,n}. Writing ss for the sum of the xixi, we recognize

x21+x22++x2n(x1+x2++xn)2=x21+x22++x2ns2=(x1s)(x1s)+(x2s)(x2s)++(xns)(xns)=p1p1+p2p2++pnpn=EF[p].

x21+x22++x2n(x1+x2++xn)2=x21+x22++x2ns2=(x1s)(x1s)+(x2s)(x2s)++(xns)(xns)=p1p1+p2p2++pnpn=EF[p].

The axiomatic fact that no probability can exceed 11 implies this expectation cannot exceed 11, either, but it's easy to make it equal to 11 by setting all but one of the pipi equal to 00 and therefore exactly one of the xixi is nonzero. Compute the coefficient of variation as in the last line of the geometric solution above.


Thanks for a detailed answer from which I have learned a lot! I assume that the difference between the nn in your answer and the n1n1 that I obtained (and Henry confirmed) is due to the fact that you are using σx=1n1ni=1(xiˉx)2
σx=1n1i=1n(xix¯)2
as the definition of σxσx while I used σx=1nni=1(xiˉx)2?
σx=1ni=1n(xix¯)2?
Dilip Sarwate

1
Yes Dilip, that's right. Sorry about the discrepancy with the question; I should have checked first and I should have defined σxσx (which I intended to do but forgot).
whuber

10

Some references, as small candles on the cakes of others:

Katsnelson and Kotz (1957) proved that so long as all xi0xi0, then the coefficient of variation cannot exceed n1n1. This result was mentioned earlier by Longley (1952). Cramér (1946, p.357) proved a less sharp result, and Kirby (1974) proved a less general result.

Cramér, H. 1946. Mathematical methods of statistics. Princeton, NJ: Princeton University Press.

Katsnelson, J., and S. Kotz. 1957. On the upper limits of some measures of variability. Archiv für Meteorologie, Geophysik und Bioklimatologie, Series B 8: 103–107.

Kirby, W. 1974. Algebraic boundedness of sample statistics. Water Resources Research 10: 220–222.

Longley, R. W. 1952. Measures of the variability of precipitation. Monthly Weather Review 80: 111–117.

I came across these papers in working on

Cox, N.J. 2010. The limits of sample skewness and kurtosis. Stata Journal 10: 482-495.

which discusses broadly similar bounds on moment-based skewness and kurtosis.


8

With two numbers xixjxixj, some δ>0δ>0 and any μμ:

(xi+δμ)2+(xjδμ)2(xiμ)2(xjμ)2=2δ(xixj+δ)>0.

(xi+δμ)2+(xjδμ)2(xiμ)2(xjμ)2=2δ(xixj+δ)>0.

Applying this to nn non-negative datapoints, this means that unless all but one of the nn numbers are zero and so cannot be reduced further, it is possible to increase the variance and standard deviation by widening the gap between any pair of the data points while retaining the same mean, thus increasing the coefficient of variation. So the maximum coefficient of variation for the data set is as you suggest: n1n1.

c should not affect the result as σxˉx does not change if all the values are multiplied by any positive constant k (as I said in my comment).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.