Relazione empirica tra media, mediana e modalità


40

Per una distribuzione unimodale moderatamente distorta, abbiamo la seguente relazione empirica tra media, mediana e modalità:

(Media - Modalità)~3(Media mediana)
Come è stata derivata questa relazione?

Karl Pearson ha tracciato migliaia di queste relazioni prima di formulare questa conclusione, o c'è una linea logica di ragionamento dietro questa relazione?

Risposte:


29

Indica la media ( media), m la mediana, σ la deviazione standard e M la modalità. Infine, lascia che X sia il campione, una realizzazione di una distribuzione unimodale continua FμmσMXF per la quale esistono i primi due momenti.

È risaputo

(1)|μm|σ

Questo è un frequente esercizio da manuale:

La prima uguaglianza deriva dalla definizione della media, la terza nasce perché la mediana è il minimizzatore univoco (tra tutte lec) diE| X-c| e il quarto dalla disuguaglianza di Jensen (cioè la definizione di una funzione convessa). In realtà, questa disuguaglianza può essere accentuata. In effetti, per qualsiasiF, soddisfacendo le condizioni di cui sopra, si può dimostrare [3] che

|μm|=|E(Xm)|E|Xm|E|Xμ|=E(Xμ)2E(Xμ)2=σ
cE|Xc|F

(2)|mμ|0.6σ

Anche se in generale non è vero ( Abadir, 2005 ) che qualsiasi distribuzione unimodale deve soddisfare uno di si può ancora dimostrare che la disuguaglianza

Mmμ or Mmμ

(3)|μM|3σ

vale per qualsiasi distribuzione integrabile unimodale e quadrata (indipendentemente dall'inclinazione). Ciò è dimostrato formalmente in Johnson and Rogers (1951) sebbene la dimostrazione dipenda da molti lemmi ausiliari che sono difficili da adattare qui. Vai a vedere il documento originale.


Una condizione sufficiente per una distribuzione per soddisfare μF è data in [2]. Se F :μmMF

(4)F(mx)+F(m+x)1 for all x

poi . Inoltre, se μ m , la disuguaglianza è rigorosa. Le distribuzioni Pearson di tipo da I a XII sono un esempio soddisfacente della famiglia di distribuzioniμmMμm [4] (ad esempio, Weibull è una distribuzione comune per la quale ( 4 ) non regge, vedere [5]).(4)(4)

Ora supponiamo che valga rigorosamente e wlog che σ = 1 , abbiamo quel 3 ( m(4)σ=1

3(mμ)(0,30.6] and Mμ(mμ,3]

e poiché il secondo di questi due intervalli non è vuoto, è certamente possibile trovare distribuzioni per le quali l'affermazione è vera (ad es. quando ) per un certo intervallo di valori dei parametri della distribuzione ma non è vero per tutte le distribuzioni e neppure per tutte le distribuzioni soddisfacenti(4).0<mμ<33<σ=1(4)

  • [0]: il problema momentaneo per le distribuzioni unimodali. NL Johnson e CA Rogers. Gli annali delle statistiche matematiche, vol. 22, n. 3 (settembre 1951), pagg. 433-439
  • [1]: Disuguaglianza medio-mediana: controesempi Teoria economica di Karim M. Abadir, vol. 21, n. 2 (aprile 2005), pagg. 477-482
  • [2]: WR van Zwet, Mean, median, mode II, Statist. Neerlandica, 33 (1979), pagg. 1-5.
  • [3]: media, mediana e modalità delle distribuzioni unimodali: una caratterizzazione. S. Basu e A. DasGupta (1997). Teoria Probab. Appl., 41 (2), 210–223.
  • [4]: Alcune osservazioni su media, mediana, modalità e asimmetria. Michikazu Sato. Journal of Statistics australiano. Volume 39, Numero 2, pagine 219–224, giugno 1997
  • [5]: PT von Hippel (2005). Media, mediana e inclinata: correzione di una regola del libro di testo. Journal of Statistics Education Volume 13, Numero 2.

Mi dispiace, sono solo uno studente di matematica del primo anno. Potresti fornire / raccomandare un link / libro / documento che descriva come è stata derivata la relazione?
Sara,

3
@Sara Penso che risale a Karl Pearson, che usa questa relazione empirica per la sua "inclinazione alla modalità Pearson". A parte questo, potresti trovare interessante questo articolo online, j.mp/aWymCv .
chl

Grazie chl e kwak per il link e la risposta che hai fornito. Li studierò.
Sara,

2
Vari punti: viene minimizzata quando k è la mediana di X . L'articolo di Von Hippel (collegato sopra da chl) discute le eccezioni e btinternet.com/~se16/hgb/median.htm mostra la possibile relazione tra media, mediana, modalità e deviazione standard, sia per distribuzioni continue che discrete. I 3 possono infatti assumere qualsiasi valore: positivo, negativo, zero o infinito. E|Xk|kX
Henry,

1
Può darsi che io sia un po 'denso (non sarebbe la prima volta). Puoi chiarire come segue da (1) e (3)? |Mμ|3|μm|
Glen_b -Restate Monica

9

L'articolo chl fornisce alcune informazioni importanti, a dimostrazione del fatto che non è vicino a una regola generale (anche per variabili continue, fluide, "ben comportate", come il Weibull). Quindi, sebbene spesso possa essere approssimativamente vero, spesso non lo è.

Quindi da dove viene Pearson? Come è arrivato a questa approssimazione?

Fortunatamente, Pearson ci dice praticamente la risposta.

Il primo uso del termine "skew" nel senso che lo stiamo usando sembra essere Pearson, 1895 [1] (appare proprio nel titolo). Questo documento sembra essere anche il luogo in cui introduce il termine mode (nota a piè di pagina, p345):

Ho trovato conveniente usare la modalità termine per l'ascissa corrispondente all'ordinata di massima frequenza. La "media", la "modalità" e la "mediana" hanno tutti caratteri distinti importanti per lo statistico.

Sembra anche essere il suo primo vero dettaglio del suo sistema di curve di frequenza .

Quindi, nel discutere la stima del parametro di forma nella distribuzione di Pearson Tipo III (quella che ora chiameremmo una gamma spostata - e possibilmente capovolta -), dice (p375):

La media, la mediana e la modalità o ordinata massima sono contrassegnate rispettivamente da bb , cc e aa , e non appena sono state disegnate le curve, si è manifestata una relazione notevole tra la posizione delle tre quantità: la mediana, quindi fintanto che era positivo * è stato visto essere circa un terzo dalla media verso il massimo p

* questo corrisponde alla gamma con parametro di forma >1

qui l'intento di "massimo" è il valore x della frequenza massima (la modalità), come è chiaro dall'inizio della citazione, non il massimo della variabile casuale.x

E infatti, se osserviamo il rapporto tra (media-modalità) e (media-mediana) per la distribuzione gamma, osserviamo questo:

enter image description here

(La parte blu indica la regione che Pearson afferma che l'approssimazione è ragionevole).

αβ

enter image description here

βα=kβααβααββ+α=cβ+ααβ

α>10

enter image description here

eμσ2,eμeμ+σ2/2

eμeσ2/2eσ2eσ2/21σ232σ212σ2, quindi almeno per i piccoli σ2 dovrebbe valere anche per il lognormale.

Esistono un numero discreto di distribuzioni ben note - molte delle quali erano familiari a Pearson - per le quali è quasi vero per una vasta gamma di valori dei parametri; lo notò con la distribuzione gamma, ma avrebbe avuto l'idea confermata quando sarebbe arrivato a esaminare diverse altre distribuzioni che avrebbe probabilmente preso in considerazione.

[1]: Pearson, K. (1895),
"Contributi alla teoria matematica dell'evoluzione, II: Variazione obliqua del materiale omogeneo",
Transazioni filosofiche della Royal Society, Serie A, 186, 343-414
[ Senza copyright. Disponibile gratuitamente qui ]


4

Questa relazione non è stata derivata. È stato notato che si tiene approssimativamente empiricamente sulle distribuzioni quasi simmetriche . Vedi l'esposizione di Yule in L'introduzione alla teoria della statistica , (1922), p. 121, capitolo VII, sezione 20. Presenta l'esempio empirico.


+1 In effetti, la mia citazione di Pearson 1895 indica che è qualcosa che ha notato piuttosto che derivato.
Glen_b

2
I vecchi testi di matematica sono molto più divertenti da leggere rispetto alla scrittura di oggi
Aksakal,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.