Cosa si può concludere riguardo ai dati quando la media aritmetica è molto vicina alla media geometrica?


24

C'è qualcosa di significativo in una media geometrica e media aritmetica che si avvicinano molto, diciamo ~ 0,1%? Quali congetture possono essere fatte su tale set di dati?

Ho lavorato sull'analisi di un set di dati e noto ironicamente che i valori sono molto, molto vicini. Non esatto, ma vicino. Inoltre, un rapido controllo di integrità della disuguaglianza media geometrica media aritmetica e una revisione dell'acquisizione dei dati rivelano che non c'è nulla di sospetto sull'integrità del mio set di dati in termini di come ho trovato i valori.


6
Piccola nota: prima controlla che i tuoi dati siano tutti positivi; un numero pari di valori negativi potrebbe lasciarti con un prodotto positivo e alcuni pacchetti potrebbero non segnalare il potenziale problema (la disuguaglianza AM-GM si basa sul fatto che i valori sono tutti positivi). Vedi ad esempio (in R):x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x)) [1] 3.383363 (mentre la media aritmetica è 1)
Glen_b -Reinstate Monica

1
Per elaborare il punto di @ Glen_b, un set di dati {x,0,x} ha sempre uguale media aritmetica e geometrica, ovvero zero. Tuttavia, possiamo diffondere i tre valori il più lontano possibile.
Hardmath,

Entrambi i mezzi aritmetici e geometrici hanno la stessa formula generalizzata , con p=1 dà il primo e p0 dà il secondo. Diventa quindi intuitivamente chiaro che i due diventano sempre più vicini l'uno all'altro quando i valori dei dati x sono sempre più tutti uguali, avvicinandosi alla costante.
ttnphns,

Risposte:


29

La media aritmetica è correlata alla media geometrica attraverso la disuguaglianza aritmetica-media-geometrica-media (AMGM) che afferma che:

x1+x2++xnnx1x2xnn,

dove si ottiene l'uguaglianza iff . Quindi probabilmente i tuoi punti dati sono tutti molto vicini tra loro.x1=x2==xn


4
È giusto. In genere, minore è la varianza dei valori, più vicini sono i due mezzi.
Michael M,

16
La varianza dovrebbe essere piccola PER CONFRONTO alle dimensioni delle osservazioni. Quindi è il coefficiente di variazione, , che dovrebbe essere piccolo.σ/μ
Michael Hardy,

1
AMGM rappresenta qualcosa? Se è così, sarebbe bello averlo spiegato.
Richard Hardy,

@RichardHardy: AMGM significa 'media aritmetica - media geometrica'

1
@ user1108, grazie, in realtà, l'ho capito dopo aver letto gli altri post. Penso solo che potrebbe essere spiegato nella risposta (non solo nei commenti).
Richard Hardy,

15

Elaborando la risposta di @Alex R, un modo per vedere la disuguaglianza AMGM è come un effetto di disuguaglianza di Jensen. Dalla disuguaglianza di Jensen : Quindi prendi l'esponenziale di entrambi i lati: 1

log(1nixi)1nilogxi
1nixiexp(1nilogxi)

Il lato destro è la media geometrica poiché (x1x2xn)1/n=exp(1nilogxi)

Quando regge la disuguaglianza AMGM con quasi uguaglianza? Quando l'effetto di disuguaglianza di Jensen è piccolo. Ciò che guida qui l'effetto di disuguaglianza di Jensen è la concavità, la curvatura del logaritmo. Se i tuoi dati sono diffusi in un'area in cui il logaritmo ha curvatura, l'effetto sarà grande. Se i tuoi dati vengono diffusi in una regione in cui il logaritmo è sostanzialmente affine, l'effetto sarà ridotto.

Ad esempio, se i dati hanno poche variazioni, sono raggruppati insieme in un quartiere sufficientemente piccolo, il logaritmo sembrerà una funzione affine in quella regione (un tema di calcolo è che se si ingrandisce abbastanza su una funzione regolare e continua, quella sembrerà una linea). Per dati sufficientemente vicini tra loro, la media aritmetica dei dati sarà vicina alla media geometrica.


12

Analizziamo l'intervallo di dato che la loro media aritmetica (AM) è un piccolo multiplo 1 + δ della loro media geometrica (GM) (con δ 0 ). Nella domanda, δ 0,001 ma non sappiamo n .x1x2xn1+δδ0δ0.001n

Poiché il rapporto di questi mezzi non cambia quando si cambiano le unità di misura, selezionare un'unità per la quale GM è . Pertanto, cerchiamo di massimizzare x n soggetto al vincolo che x 1 + x 2 + + x n = n ( 1 + δ ) e x 1x 2x n = 1 .1xnx1+x2++xn=n(1+δ)x1x2xn=1

x1=x2==xn1=x, say, and xn=zx. Thus

n(1+δ)=x1++xn=(n1)x+z

and

1=x1x2xn=xn1z.

The solution x is a root between 0 and 1 of

(1n)xn+n(1+δ)xn11.

It is easily found iteratively. Here are the graphs of the optimal x and z as a function of δ for n=6,20,50,150, left to right:

Figure

As soon as n reaches any appreciable size, even a tiny ratio of 1.001 is consistent with one large outlying xn (the upper red curves) and a group of tightly clustered xi (the lower blue curves).

At the other extreme, suppose n=2k is even (for simplicity). The minimum range is achieved when half the xi equal one value x1 and the other half equal another value z1. Now the solution (which is easily checked) is

xk=1+δ±δ2+2δ.

For tiny δ, we may ignore the δ2 as an approximation and also approximate the kth root to first order, giving

x1+δ2δk; z1+δ+2δk.

The range is approximately 32δ/n.

In this manner we have obtained upper and lower bounds on the possible range of the data. We have learned that they depend heavily on the amount of data n. The upper bound shows the range can be appreciable even for tiny δ, thereby improving our sense of just how close to each other the data points really need to be--and placing a lower limit on their range, too.

Similar analyses, just as easily carried out, can inform you--quantitatively--of how tightly clustered the xi might be in terms of any other measure of spread, such as their variance or coefficient of variation.


On the right of your right hand graph you seem to have n=150,δ=0.002,x0.9954,z1.983,k=75. I do not see how these values are near your stated formulae approximations which seem to give x0.99918,z1.00087. Perhaps I have misunderstood
Henry

@Henry I don't know how you came up with those numbers. When n=150, the requirements are that x149z=1 and 149x+z=150(1.002)=150.3. Neither of those comes close to being true for the values you supply. When you plug in x=0.995416 and z=1.98308, you get the correct values.
whuber

I tried what looks to me like your z1+δ+2δk=1+0.002+2×0.002751.00087 and similarly for x. But now I see this is answering a different question
Henry

@Henry That solves a different problem: those are the values that give a minimum range. I did not post graphs for those. Indeed, with your x and z we have 75x+75z150.3 and x75z751, as required.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.