Come valutare l'asimmetria da un diagramma a scatole?


19

Come decidere l'asimmetria guardando un diagramma a scatole costruito da questi dati:

340, 300, 520, 340, 320, 290, 260, 330

Un libro dice: "Se il quartile inferiore è più lontano dalla mediana rispetto al quartile superiore, la distribuzione è distorta negativamente". Diverse altre fonti hanno detto più o meno lo stesso.

Ho creato un diagramma a scatole usando R. È simile al seguente:

box-plot

Presumo che sia negativamente distorto , perché il quartile inferiore è più lontano dalla mediana rispetto al quartile superiore. Ma il problema è quando uso un altro metodo per determinare l'asimmetria:

media (337.5)> mediana (325)

Ciò indica che i dati sono distorti positivamente . Ho dimenticato qualcosa?

Risposte:


19

Una misura dell'asimmetria si basa sulla media-mediana, il secondo coefficiente di asimmetria di Pearson .

Un'altra misura dell'asimmetria si basa sulle differenze relative al quartile (Q3-Q2) vs (Q2-Q1) espresse come rapporto

Quando (Q3-Q2) vs (Q2-Q1) è invece espresso come una differenza (o equivalentemente mediana), che deve essere ridimensionato per renderlo privo di dimensioni (come di solito necessario per una misura di asimmetria), ad esempio l'IQR, come qui (mettendo ).u=0.25

La misura più comune è ovviamente l' asimmetria del terzo momento .

Non c'è motivo per cui queste tre misure saranno necessariamente coerenti. Ognuno di loro potrebbe essere diverso dagli altri due.

Ciò che consideriamo "asimmetria" è un concetto un po 'sfuggente e mal definito. Vedi qui per ulteriori discussioni.

Se esaminiamo i tuoi dati con un normale qqplot:

inserisci qui la descrizione dell'immagine

[La linea contrassegnata lì si basa solo sui primi 6 punti, perché voglio discutere la deviazione degli ultimi due dal modello lì.]

Vediamo che i 6 punti più piccoli si trovano quasi perfettamente sulla linea.

Quindi il 7 ° punto è sotto la linea (più vicino alla metà relativamente al corrispondente secondo punto dall'estremità sinistra), mentre l'ottavo punto si trova molto sopra.

Il settimo punto suggerisce una leggera inclinazione a sinistra, l'ultima inclinazione a destra più forte. Se ignori uno dei due punti, l'impressione di asimmetria è interamente determinata dall'altro.

Se ho dovuto dire che è stato uno o l'altro, lo chiamerei che "giusto skew", ma mi piacerebbe anche sottolineare che l'impressione era interamente dovuto all'effetto di quella molto grande punto. Senza di essa non c'è davvero nulla da dire che è giusto inclinazione. (D'altra parte, senza il settimo punto invece, non è chiaramente inclinato.)

Dobbiamo stare molto attenti quando la nostra impressione è interamente determinata da singoli punti e può essere capovolta rimuovendo un punto. Questa non è una base per continuare!


Comincio con la premessa che ciò che rende un outward "esterno" è il modello (ciò che è outlier rispetto al modello può essere abbastanza tipico in un altro modello).

Penso che un'osservazione al percentile superiore 0,01 (1/10000) di un normale (3,72 sds sopra la media) sia ugualmente esterna al modello normale come un'osservazione al percentile superiore 0,01 di una distribuzione esponenziale è al modello esponenziale. (Se trasformiamo una distribuzione con la sua trasformazione integrale di probabilità, ognuna andrà alla stessa uniforme)

Per vedere il problema con l'applicazione della regola boxplot anche a una distribuzione dell'inclinazione moderatamente corretta, simulare grandi campioni da una distribuzione esponenziale.

Ad esempio, se simuliamo campioni di dimensioni 100 da un valore normale, calcoliamo in media meno di 1 valore anomalo per campione. Se lo facciamo con un esponenziale, facciamo una media di circa 5. Ma non esiste una base reale su cui affermare che una percentuale più elevata di valori esponenziali sia "esterna" a meno che non lo facciamo confrontando con (diciamo) un modello normale. In situazioni particolari potremmo avere ragioni specifiche per avere una regola esterna di qualche forma particolare, ma non esiste una regola generale, che ci lascia con principi generali come quello con cui ho iniziato in questa sottosezione - per trattare ogni modello / distribuzione sulle sue luci (se un valore non è insolito rispetto a un modello, perché chiamarlo anomalo in quella situazione?)


Per passare alla domanda nel titolo :

Sebbene sia uno strumento piuttosto grezzo (motivo per cui ho osservato la trama QQ) ci sono diverse indicazioni di asimmetria in un diagramma a scatole - se c'è almeno un punto contrassegnato come anomalo, potenzialmente ci sono (almeno) tre:

inserisci qui la descrizione dell'immagine

In questo campione (n = 100), i punti esterni (verde) segnano gli estremi e con la mediana suggeriscono l'asimmetria sinistra. Quindi le recinzioni (blu) suggeriscono (se combinate con la mediana) suggeriscono la giusta inclinazione. Quindi le cerniere (quartili, marroni), suggeriscono l'asimmetria sinistra quando combinate con la mediana.

Come vediamo, non devono essere coerenti. Su cosa ti concentrerai dipende dalla situazione in cui ti trovi (e possibilmente dalle tue preferenze).

Tuttavia, un avvertimento su quanto sia grezzo il boxplot. L'esempio verso la fine qui - che include una descrizione di come generare i dati - fornisce quattro distribuzioni abbastanza diverse con lo stesso diagramma a scatole:

inserisci qui la descrizione dell'immagine

Come puoi vedere, c'è una distribuzione piuttosto distorta con tutti gli indicatori di asimmetria sopra menzionati che mostrano una perfetta simmetria.

-

Prendiamo questo dal punto di vista "quale risposta si aspettava il tuo insegnante, dato che si tratta di un diagramma a scatole, che segna un punto come anomalo?".

Ci resta la prima risposta "si aspettano che tu valuti l'asimmetria escludendo quel punto o con esso nel campione?". Alcuni lo escluderebbero e valuterebbero l'asimmetria da ciò che rimane, come ha fatto Jsk in un'altra risposta. Mentre ho contestato aspetti di tale approccio, non posso dire che sia sbagliato - dipende dalla situazione. Alcuni lo includerebbero (anche perché escludere il 12,5% del campione a causa di una regola derivata dalla normalità sembra un grande passo *).

* Immagina una distribuzione della popolazione simmetrica ad eccezione della coda dell'estrema destra (ne ho costruita una simile nel rispondere a questa - normale ma con l'estrema destra che è Pareto - ma non l'ho presentata nella mia risposta). Se disegno campioni della dimensione 8, spesso 7 delle osservazioni provengono dalla parte dall'aspetto normale e una proviene dalla coda superiore. Se in questo caso escludiamo i punti contrassegnati come valori anomali del boxplot, escludiamo il punto che ci dice che in realtà è inclinato! Quando lo facciamo, la distribuzione troncata che rimane in quella situazione è inclinata a sinistra, e la nostra conclusione sarebbe l'opposto di quella corretta.


1
@jsk Dipende da come si desidera misurare l'asimmetria. Poiché il grado di asimmetria è in parte determinato da punti periferici (una tendenza ad essere più periferici in una direzione rispetto a un'altra), rimuoverli probabilmente fa perdere il punto di misurazione dell'asimmetria. Una discussione e un'analisi più dettagliate sono nel mio post aggiornato. Se non sei convinto, sentiti libero di non essere d'accordo, tali scambi sono spesso preziosi.
Glen_b -Restate Monica

1
@Glen_b Mentre certamente rispetto e capisco la posizione che stai assumendo, credo che ci sia una ragione ragionevole da argomentare per giudicare l'inclinazione dopo aver rimosso il valore anomalo rispetto a prima. Dopo aver rimosso il valore erratico, la distribuzione sarà ancora inclinata negativamente dopo aver rimosso il 7 ° punto (260). Hai controllato il qqplot e / o confrontato la media e la mediana?
jsk,

1
Forse il caso è abbastanza debole dopo aver rimosso il settimo, ma non vedo alcun motivo per giustificare il giudizio dell'inclinazione dopo averlo rimosso. Non è un valore anomalo, anche se il punto è ben preso che le misure di inclinazione, indipendentemente da come le guardi in questo caso, sono guidate da singoli punti.
jsk,

1
@Glen_ b Q3 + 1.5IQR è la regola empirica tipica insegnata a questo livello per identificare i valori anomali nella coda superiore. Se rimuoverli o meno è un'altra questione. Stai sostenendo che la distribuzione è distorta perché la media è più grande? Perché ignorare il fatto che Q1 è più lontano da Q2 di Q3?
jsk,

1
Voglio precisare ciò che è vicino alla superficie qui ma non del tutto: spesso i grafici a scatole si condensano troppo, quindi potrebbe essere necessario esaminare anche tutti i dati.
Nick Cox,

11

No, non ti sei perso nulla: in realtà stai vedendo oltre i semplici riassunti che sono stati presentati. Questi dati sono distorti sia positivamente che negativamente (nel senso di "asimmetria" che suggerisce una qualche forma di asimmetria asimmetria nella distribuzione dei dati).

John Tukey ha descritto un modo sistematico di esplorare l'asimmetria in lotti di dati mediante il suo "riassunto del numero N". Un diagramma a scatole è un grafico di un riepilogo di 5 numeri e quindi è suscettibile di questa analisi.


MH+H-X+X-Tio+ioTio+Tio-M=M+=M-(Tio++Tio-)/2io stima dell'asimmetria.

Per applicare questa idea a un diagramma a scatole, basta disegnare i punti medi di ciascuna coppia di parti corrispondenti: la mediana (che è già lì), il punto medio delle cerniere (estremità della scatola, mostrate in blu) e il punto medio degli estremi (mostrato in rosso).

boxplot

In questo esempio il basso valore della metà cerniera rispetto alla mediana indica il centro del lotto è leggermente negativa inclinata (conferma delle valutazione citato nell'interrogazione, mentre allo stesso tempo opportunamente limitarne la portata al centro del lotto ) mentre il valore (molto) più alto del medio-estremo indica che le code del lotto (o almeno i suoi estremi) sono inclinate positivamente (anche se, a un esame più attento, ciò è dovuto a un unico valore anomalo alto). Sebbene questo sia quasi un esempio banale, la relativa ricchezza di questa interpretazione rispetto a una singola statistica di "asimmetria" rivela già il potere descrittivo di questo approccio.

Con un po 'di pratica non è necessario tracciare queste statistiche intermedie: puoi immaginare dove si trovano e leggere le informazioni sull'asimmetria risultanti direttamente da qualsiasi diagramma a scatole.


MHEDXio=1,2,3,4,5. Il diagramma a sinistra nella figura successiva è il diagramma diagnostico per i punti medi di queste statistiche accoppiate. Dalla pendenza in accelerazione, è chiaro che i dati stanno diventando sempre più distorti man mano che ci avviciniamo alle loro code.

figura 2

Le trame centrale e destra mostrano la stessa cosa per le radici quadrate (dei dati, non delle statistiche dei numeri medi!) E dei logaritmi (base-10). La stabilità relativa dei valori delle radici (si noti il ​​piccolo intervallo verticale relativo e il livello inclinato nel mezzo) indica che questo lotto di 219 valori diventa approssimativamente simmetrico sia nelle sue porzioni centrali che in tutte le parti delle sue code, quasi fino a gli estremi quando le altezze vengono ri-espresse come radici quadrate. Questo risultato è una base solida, quasi convincente, per continuare ulteriori analisi di queste altezze in termini di radici quadrate.

Tra le altre cose, questi diagrammi rivelano qualcosa di quantitativo sull'asimmetria dei dati: sulla scala originale, rivelano immediatamente la diversa asimmetria dei dati (mettendo in dubbio considerevolmente l'utilità di utilizzare una singola statistica per caratterizzare la sua asimmetria), mentre su nella scala della radice quadrata, i dati sono quasi simmetrici rispetto al loro centro - e quindi possono essere sinteticamente riassunti con un riepilogo di cinque numeri, o equivalentemente un diagramma a riquadri. L'asimmetria varia di nuovo sensibilmente su una scala logaritmica, dimostrando che il logaritmo è un modo troppo "forte" per riesprimere questi dati.

La generalizzazione di un diagramma a riquadri a riassunti di sette, nove e più numeri è semplice da tracciare. Tukey li chiama "grafici schematici". Oggi molte trame hanno uno scopo simile, compresi standbys come trame QQ e relative novità come "trame di fagioli" e "trame di violino". (Anche l'istogramma umile può essere messo in servizio a questo scopo.) Utilizzando i punti di tali grafici, si può valutare l'asimmetria in modo dettagliato ed eseguire una valutazione simile dei modi per riesprimere i dati.


7

Il fatto che la media sia minore o maggiore della mediana è una scorciatoia che spesso funziona per determinare la direzione dell'inclinazione fintanto che non ci sono valori anomali. In questo caso, la distribuzione è negativamente distorta ma la media è maggiore della mediana a causa del valore anomalo.


Questo spiega. I libri che ho letto non ne parlavano affatto!
JerryW,

Speriamo che i libri almeno menzionino come la media sia molto meno resistente agli outlier rispetto alla mediana!
jsk,

Il fatto che ciò contenga come negativamente distorto dipende da come si misura l'asimmetria.
Glen_b -Restate Monica

Giusto. È un piccolo set di dati che rende particolarmente difficile giudicare l'asimmetria. Immagino che questo esempio sia stato sfortunatamente gettato lì solo per il motivo di avere regole empiriche contrastanti per determinare l'inclinazione
jsk

1
Concordo sul fatto che piccoli set di dati come questo possano renderlo impegnativo, ma è perfettamente possibile costruire distribuzioni continue ugualmente impegnative.
Glen_b -Restate Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.