Quando l'asimmetria è una cosa negativa da avere? Le distribuzioni simmetriche (generalmente ma non sempre: ad es., Non per la distribuzione di Cauchy) hanno una mediana, una modalità e una media molto vicine tra loro. Quindi, se vogliamo misurare la posizione di una popolazione, è utile avere la mediana, la modalità e la media vicine l'una all'altra.
Ad esempio, se prendiamo il logaritmo della distribuzione del reddito , riduciamo abbastanza l'asimmetria da poter ottenere utili modelli di ubicazione del reddito. Tuttavia, avremo ancora una coda destra più pesante di quanto desideriamo davvero. Per ridurlo ulteriormente, potremmo usare una distribuzione di Pareto . La distribuzione di Pareto è simile a una trasformazione log-log dei dati. Ora, sia le distribuzioni Pareto che quelle log-normali hanno difficoltà nella fascia bassa della scala delle entrate. Ad esempio, entrambi soffronoln0 = - ∞. Il trattamento di questo problema è coperto da trasformazioni di potenza .
Esempio da 25 entrate in chilogrammi di dollari sottratti dal www.
k$ lnk$
28 3.33220451
29 3.36729583
35 3.555348061
42 3.737669618
42 3.737669618
44 3.784189634
50 3.912023005
52 3.951243719
54 3.988984047
56 4.025351691
59 4.077537444
78 4.356708827
84 4.430816799
90 4.49980967
95 4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514
L'asimmetria della prima colonna è 0,99 e della seconda è -0,05. La prima colonna non è probabilmente normale (Shapiro-Wilk p = 0,04) e la seconda non è significativamente non normale (p = 0,57).
First column Mean 90.0 (95% CI, 68.6 to 111.3) Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)
Quindi, la domanda è: se sei una persona a caso con uno dei guadagni elencati, cosa puoi guadagnare? È ragionevole concludere che guadagneresti 90k o più della mediana di 84k? O è più probabile concludere che anche la mediana è distorta come misura della posizione e che laexp[ significa ln( k $ ) ] di 76,7 k, che è inferiore alla mediana, è anche più ragionevole come stima?
Ovviamente, il log-normal qui è un modello migliore e il logaritmo medio ci dà una migliore misura della posizione. Che questo sia ben noto, se non del tutto compreso, è illustrato dalla frase "Prevedo di ottenere uno stipendio a 5 cifre".