Una misura dell'asimmetria si basa sulla media-mediana, il secondo coefficiente di asimmetria di Pearson .
Un'altra misura dell'asimmetria si basa sulle differenze relative al quartile (Q3-Q2) vs (Q2-Q1) espresse come rapporto
Quando (Q3-Q2) vs (Q2-Q1) è invece espresso come una differenza (o equivalentemente mediana), che deve essere ridimensionato per renderlo privo di dimensioni (come di solito necessario per una misura di asimmetria), ad esempio l'IQR, come qui (mettendo ).u = 0,25
La misura più comune è ovviamente l' asimmetria del terzo momento .
Non c'è motivo per cui queste tre misure saranno necessariamente coerenti. Ognuno di loro potrebbe essere diverso dagli altri due.
Ciò che consideriamo "asimmetria" è un concetto un po 'sfuggente e mal definito. Vedi qui per ulteriori discussioni.
Se esaminiamo i tuoi dati con un normale qqplot:
[La linea contrassegnata lì si basa solo sui primi 6 punti, perché voglio discutere la deviazione degli ultimi due dal modello lì.]
Vediamo che i 6 punti più piccoli si trovano quasi perfettamente sulla linea.
Quindi il 7 ° punto è sotto la linea (più vicino alla metà relativamente al corrispondente secondo punto dall'estremità sinistra), mentre l'ottavo punto si trova molto sopra.
Il settimo punto suggerisce una leggera inclinazione a sinistra, l'ultima inclinazione a destra più forte. Se ignori uno dei due punti, l'impressione di asimmetria è interamente determinata dall'altro.
Se ho dovuto dire che è stato uno o l'altro, lo chiamerei che "giusto skew", ma mi piacerebbe anche sottolineare che l'impressione era interamente dovuto all'effetto di quella molto grande punto. Senza di essa non c'è davvero nulla da dire che è giusto inclinazione. (D'altra parte, senza il settimo punto invece, non è chiaramente inclinato.)
Dobbiamo stare molto attenti quando la nostra impressione è interamente determinata da singoli punti e può essere capovolta rimuovendo un punto. Questa non è una base per continuare!
Comincio con la premessa che ciò che rende un outward "esterno" è il modello (ciò che è outlier rispetto al modello può essere abbastanza tipico in un altro modello).
Penso che un'osservazione al percentile superiore 0,01 (1/10000) di un normale (3,72 sds sopra la media) sia ugualmente esterna al modello normale come un'osservazione al percentile superiore 0,01 di una distribuzione esponenziale è al modello esponenziale. (Se trasformiamo una distribuzione con la sua trasformazione integrale di probabilità, ognuna andrà alla stessa uniforme)
Per vedere il problema con l'applicazione della regola boxplot anche a una distribuzione dell'inclinazione moderatamente corretta, simulare grandi campioni da una distribuzione esponenziale.
Ad esempio, se simuliamo campioni di dimensioni 100 da un valore normale, calcoliamo in media meno di 1 valore anomalo per campione. Se lo facciamo con un esponenziale, facciamo una media di circa 5. Ma non esiste una base reale su cui affermare che una percentuale più elevata di valori esponenziali sia "esterna" a meno che non lo facciamo confrontando con (diciamo) un modello normale. In situazioni particolari potremmo avere ragioni specifiche per avere una regola esterna di qualche forma particolare, ma non esiste una regola generale, che ci lascia con principi generali come quello con cui ho iniziato in questa sottosezione - per trattare ogni modello / distribuzione sulle sue luci (se un valore non è insolito rispetto a un modello, perché chiamarlo anomalo in quella situazione?)
Per passare alla domanda nel titolo :
Sebbene sia uno strumento piuttosto grezzo (motivo per cui ho osservato la trama QQ) ci sono diverse indicazioni di asimmetria in un diagramma a scatole - se c'è almeno un punto contrassegnato come anomalo, potenzialmente ci sono (almeno) tre:
In questo campione (n = 100), i punti esterni (verde) segnano gli estremi e con la mediana suggeriscono l'asimmetria sinistra. Quindi le recinzioni (blu) suggeriscono (se combinate con la mediana) suggeriscono la giusta inclinazione. Quindi le cerniere (quartili, marroni), suggeriscono l'asimmetria sinistra quando combinate con la mediana.
Come vediamo, non devono essere coerenti. Su cosa ti concentrerai dipende dalla situazione in cui ti trovi (e possibilmente dalle tue preferenze).
Tuttavia, un avvertimento su quanto sia grezzo il boxplot. L'esempio verso la fine qui - che include una descrizione di come generare i dati - fornisce quattro distribuzioni abbastanza diverse con lo stesso diagramma a scatole:
Come puoi vedere, c'è una distribuzione piuttosto distorta con tutti gli indicatori di asimmetria sopra menzionati che mostrano una perfetta simmetria.
-
Prendiamo questo dal punto di vista "quale risposta si aspettava il tuo insegnante, dato che si tratta di un diagramma a scatole, che segna un punto come anomalo?".
Ci resta la prima risposta "si aspettano che tu valuti l'asimmetria escludendo quel punto o con esso nel campione?". Alcuni lo escluderebbero e valuterebbero l'asimmetria da ciò che rimane, come ha fatto Jsk in un'altra risposta. Mentre ho contestato aspetti di tale approccio, non posso dire che sia sbagliato - dipende dalla situazione. Alcuni lo includerebbero (anche perché escludere il 12,5% del campione a causa di una regola derivata dalla normalità sembra un grande passo *).
* Immagina una distribuzione della popolazione simmetrica ad eccezione della coda dell'estrema destra (ne ho costruita una simile nel rispondere a questa - normale ma con l'estrema destra che è Pareto - ma non l'ho presentata nella mia risposta). Se disegno campioni della dimensione 8, spesso 7 delle osservazioni provengono dalla parte dall'aspetto normale e una proviene dalla coda superiore. Se in questo caso escludiamo i punti contrassegnati come valori anomali del boxplot, escludiamo il punto che ci dice che in realtà è inclinato! Quando lo facciamo, la distribuzione troncata che rimane in quella situazione è inclinata a sinistra, e la nostra conclusione sarebbe l'opposto di quella corretta.