Come sapere se la mia distribuzione dei dati è simmetrica?


23

So che se la mediana e la media sono approssimativamente uguali, significa che esiste una distribuzione simmetrica, ma in questo caso particolare non ne sono certo. La media e la mediana sono abbastanza vicine (solo 0,487 m / gall differenza), il che mi porterebbe a dire che c'è una distribuzione simmetrica ma guardando il diagramma a scatole, sembra che sia leggermente inclinato positivamente (la mediana è più vicina a Q1 rispetto a Q3 come confermato dai valori).

(Sto usando Minitab se hai qualche consiglio specifico per questo software.)


Commento ortogonale su un dettaglio: quali unità sono m / gall? Sembra metri per gallone e sono incuriosito.
Nick Cox,

È una grave limitazione qui che i grafici a scatole non mostrano in genere mezzi!
Nick Cox,

Qual è la deviazione standard dei tuoi dati? Se il valore di 0,487 m / gall è molto più piccolo della tua deviazione standard, allora probabilmente hai motivi per credere che la tua distribuzione possa essere simmetrica. Se quel valore è molto maggiore della tua deviazione standard (o MAD o qualunque misura di deviazione osservi) probabilmente esaminare ulteriormente la simmetria della distribuzione è una perdita di tempo.
usεr11852 dice Reinstate Monic l'

1
-70,-63,-56,-49,-42,-35,-28,-21,-14,-7,0,1,4,9,16,25,36,49,64,81,100non è deliberatamente simmetrico (uniforme nella metà inferiore ma non nella metà superiore) e un diagramma a riquadri metterebbe la mediana (uguale alla media) più vicina al quartile superiore rispetto al quartile inferiore ma anche più vicina al minimo del massimo.
Henry,

@NickCox potrebbe anche essere milligal con un refuso. Sarebbe quasi 500 gal! O meno di 10 - 4 g. (Naturalmente, come notato sopra, senza alcuna scala di dispersione come MAD, non c'è modo di sapere cosa potrebbe essere "significativo".)μ104
GeoMatt22

Risposte:


29

Senza dubbio ti è stato detto diversamente, ma mean median non implica simmetria.=

C'è una misura dell'asimmetria basata sulla media meno la mediana (la seconda asimmetria di Pearson), ma può essere 0 quando la distribuzione non è simmetrica (come una qualsiasi delle comuni misure di asimmetria).

Allo stesso modo, la relazione tra media e mediana non implica necessariamente una relazione simile tra il midhinge ( ) e la mediana. Possono suggerire l'asimmetria opposta, oppure uno può eguagliare la mediana mentre l'altro no.(Q1+Q3)/2

Un modo per indagare sulla simmetria è tramite un diagramma di simmetria *.

Se sono le osservazioni ordinate dal più piccolo al più grande (le statistiche dell'ordine), e M è la mediana, quindi un diagramma di simmetria traccia Y ( n ) - M vs M - Y ( 1 ) , Y ( n - 1 ) - M vs M - Y ( 2 )Y(1),Y(2),...,Y(n)MY(n)MMY(1)Y(n1)MM-Y(2) , ... e così via.

* Minitab può farlo . In effetti, ho sollevato questa trama come una possibilità perché le ho viste fatte in Minitab.

Ecco quattro esempi:

Diagrammi di simmetria
Symmetry plots of above type for samples from four distributions

(Le distribuzioni effettive erano (da sinistra a destra, prima la riga superiore) - Laplace, Gamma (forma = 0,8), beta (2,2) e beta (5,2). Il codice è di Ross Ihaka, da qui )

Con esempi simmetrici dalla coda pesante, spesso accade che i punti più estremi possano essere molto lontani dalla linea; presteresti meno attenzione alla distanza dalla linea di uno o due punti mentre ti avvicini alla parte in alto a destra della figura.

Ci sono ovviamente altri grafici (ho menzionato il diagramma di simmetria non da un particolare senso di difesa di quel particolare, ma perché sapevo che era già stato implementato in Minitab). Quindi esploriamo alcuni altri.

Ecco i corrispondenti disallineamenti che Nick Cox ha suggerito nei commenti:

Trame di asimmetria
Skewness plots as suggested by Nick Cox in comments

In questi grafici, una tendenza in alto indicherebbe una coda destra in genere più pesante di quella sinistra e una tendenza in basso indicherebbe una coda sinistra in genere più pesante di destra, mentre la simmetria sarebbe suggerita da una trama relativamente piatta (sebbene forse abbastanza rumorosa).

Nick suggerisce che questa trama è migliore (in particolare "più diretta"). Sono propenso ad essere d'accordo; l'interpretazione della trama sembra di conseguenza un po 'più semplice, sebbene le informazioni nei grafici corrispondenti siano spesso abbastanza simili (dopo aver sottratto la pendenza unitaria nel primo set, si ottiene qualcosa di molto simile al secondo set).

[Naturalmente, nessuna di queste cose ci dirà che la distribuzione da cui sono stati estratti i dati è in realtà simmetrica; otteniamo un'indicazione di quanto sia quasi simmetrico il campione, e quindi in tale misura possiamo giudicare se i dati sono ragionevolmente coerenti con l'essere ricavati da una popolazione quasi simmetrica.]


3
@ user72943 Se sei totalmente soddisfatto, non dimenticare di tornare indietro e selezionare la risposta di Glen_b. Potresti voler aspettare un po 'per vedere se qualcuno invia una risposta migliore, ma Glen_b riceverà più credito se accetti la risposta.
Wayne,

3
+1, ma un cavillo. Trovo un diagramma di (quantile superiore+ quantile inferiore) / 2 contro (quantile superiore -quantile inferiore) più diretto del diagramma di simmetria qui. Per la statistica dell'ordine di lettura quantile, se desiderato. La situazione di riferimento è una distribuzione simmetrica in cui le medie dei quantili associati sono tutte uguali alla mediana, quindi una distribuzione simmetrica traccia una linea retta. L'asimmetria leggera e marcata è facile da individuare, così come lo è (ad esempio) la simmetria approssimativa nel mezzo e le eccezioni marcate in una o entrambe le code.
Nick Cox,

6
+1 In EDA , John Tukey traccia semplicemente una sequenza di medi. Questi sono i valori(Y(n+1-io)+Y(io))/2 for a carefully chosen sequence of indexes i (approximating n/2,n/4,n/8, and so on). In some ways this plot is better than symmetry plots insofar as it filters out an excess of detail and helps the viewer focus on how symmetry (or lack thereof) changes as one moves out into a tail. It has the added benefit of being immediately and easily computable once an n-letter summary is in hand, which in turn can be read directly off a stem-and-leaf plot.
whuber

1
@whuber and I are talking of the same underlying idea. The difference is between plotting all paired order statistics (not in practice very distracting) or plotting just some.
Nick Cox

1
References in stata-journal.com/sjpdf.html?articlenum=gr0003 and for Stata users in the documentation for skewplot (SSC). The idea goes back at least to a suggestion attributed to J.W. Tukey in Wilk, M.B. and Gnanadesikan, R. 1968. Probability plotting methods for the analysis of data. Biometrika 55: 1-17.
Nick Cox

6

The easiest thing is to compute the sample skewness. There's a function in Minitab for that. The symmetrical distributions will have zero skewness. Zero skewness doesn't necessarily mean symmetrical, but in most practical cases it would.

As @NickCox noted, there's more than one definition of skewness. I use the one that's compatible with Excel, but you can use any other.


2
I think this needs spelling out. In particular, there is no such thing as "the skewness". There are lots of measures and even the uncommon ones are often as useful or interesting as the common ones (e.g. L-moments). Those tempted to regard standardized third moment as the measure (and it's my default, too) should note that for Karl Pearson, and for many other authors well into the 20th century, skewness was most often measured relative to the mode.
Nick Cox

Any skewness coefficient, apart from lacking much power to detect asymmetries (as you correctly remark), also suffers from being (extremely) non-robust, because it is based on the third sample moment. Also, since symmetry can be violated in many (and interesting) ways, a single numerical characterization of symmetry is a poor substitute for the richer graphical diagnostics described in the exploratory data analysis literature.
whuber

1

Centra i tuoi dati intorno allo zero sottraendo la media del campione. Ora dividi i tuoi dati in due parti, il negativo e il positivo. Prendi il valore assoluto dei punti dati negativi. Ora fai un test di Kolmogorov-Smirnov a due campioni confrontando le due partizioni tra loro. Fai le tue conclusioni in base al valore p.


0

Metti le tue osservazioni ordinate in valori crescenti in una colonna, quindi mettile in ordine decrescente in un'altra colonna.
Quindi calcola il coefficiente di correlazione (chiamalo Rm) tra queste due colonne.
Calcola l'indice chirale: CHI = (1 + Rm) / 2.
CHI accetta i valori nell'intervallo [0..1].
CHI è null IF e SOLO SE il campione è distribuito simmetricamente.
Non è necessario il terzo momento.
Teoria:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(la maggior parte degli articoli citati in queste due pagine sono scaricabili lì in pdf)
Spero che aiuta, anche di recente.


La correlazione, Rm, non sarebbe necessariamente negativa? Non vedo come CHI possa essere 1 a meno che Rm fosse 1, ma poiché col1 è in ordine crescente e col2 in ordine decrescente, RM <= 0, il che significa che CHI prenderebbe valori in [0, .5]. Mi sto perdendo qualcosa?
gung - Ripristina Monica

Yes Rm cannot be positive and CHI cannot exceed 1/2 for distributions of random variables taking values on the real line. In fact the upper bound 1 comes from the general theory introducing the chiral index. It makes sense for distributions of random variables taking values in a more general space. This theory is out of scope of the present discussion, but it is presented in the two web pages that I previously mentioned.
Petitjean

Per favore registrati e / o unisci i tuoi account (puoi trovare informazioni su come farlo nella sezione Il mio account del nostro centro assistenza ), quindi sarai in grado di modificare e commentare la tua domanda.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.