Qual è la base per la definizione di Box e Whisker Plot di un outlier?


17

La definizione standard di un outlier per un diagramma Box e Whisker è punti al di fuori dell'intervallo , dove e è il primo quartile e è il terzo quartile dei dati.{Q1-1.5ioQR,Q3+1.5ioQR}ioQR=Q3-Q1Q1Q3

Qual è la base per questa definizione? Con un gran numero di punti, anche una distribuzione perfettamente normale restituisce valori anomali.

Ad esempio, supponiamo di iniziare con la sequenza:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

Questa sequenza crea una classifica percentile di 4000 punti di dati.

Il test della normalità per qnormquesta serie comporta:

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

I risultati sono esattamente come previsto: la normalità di una distribuzione normale è normale. La creazione di qqnorm(qnorm(xseq))crea (come previsto) una linea retta di dati:

trama qqnorm di dati

Se viene creato un diagramma a scatole degli stessi dati, boxplot(qnorm(xseq))produce il risultato:

trama dei dati

Il boxplot, diversamente shapiro.test, ad.testo qqnormidentifica diversi punti come valori anomali quando la dimensione del campione è sufficientemente grande (come in questo esempio).


cosa intendi per "base"? questa è una definizione, e nessuno dice che la distribuzione perfettamente normale non ha valori anomali
Haitao Du

2
@ hxd1011, la definizione della distribuzione non può essere un valore anomalo da sé. Questa definizione per testare gli outlier su una scatola e un diagramma di baffo sta testando / qualcosa / per fornire il risultato, qualunque cosa stia testando sarebbe la base del test.
Tavrock,

Penso che la definizione anomala di box e whisker sia solo una euristica ... Inoltre, perché la definizione di distribuzione non può avere un outlier da sé?
Haitao Du,

3
Non importa quale regola scegliate, finireste per dire "con un gran numero di punti, anche una distribuzione perfettamente normale restituisce valori anomali". [Prova a trovare un modo per identificare utilmente i valori anomali che non possono rifiutare alcun punto se
provi

1
Un aneddoto molto ripetuto è che a John Tukey, che ha elaborato questa regola empirica, è stato chiesto il motivo per cui 1.5; e ha detto che 1 sarebbe troppo piccolo e 2 sarebbe troppo. Dato il numero di volte in cui l'ho visto frainteso come in qualche modo un criterio definitivo e oracolare, sarei più che felice che svanisca. Ora abbiamo tutti i computer in grado di mostrare tutti i dati!
Nick Cox,

Risposte:


25

grafici a scatole

Ecco una sezione pertinente di Hoaglin, Mosteller e Tukey (2000): Comprendere l'analisi dei dati robusti ed esplorativi. Wiley . Capitolo 3, "Boxplots and Batch Comparison", scritto da John D. Emerson e Judith Strenio (da pagina 62):

FL-32dFFU+32dF

FLFUdFFU-FL

Continuano e mostrano l'applicazione a una popolazione gaussiana (pagina 63):

010-0,67450,67451.34943322,02352±2.69822399,3%

Così

0.7%

Inoltre, scrivono

[...] Quindi possiamo giudicare se i nostri dati sembrano più pesanti di quelli gaussiani in base a quanti punti cadono oltre i limiti anomali. [...]

Forniscono una tabella con la proporzione prevista di valori che non rientrano nei valori soglia anomali (etichettati "Totale% fuori"):

Tabella 3-2

Quindi questi tagli non sono mai stati intesi come una regola rigorosa su quali punti di dati sono anomali o meno. Come hai notato, anche una perfetta distribuzione normale dovrebbe mostrare "valori anomali" in un diagramma a scatole.


Valori anomali

Per quanto ne so, non esiste una definizione universalmente accettata di valore anomalo. Mi piace la definizione di Hawkins (1980):

Un valore anomalo è un'osservazione che si discosta così tanto dalle altre osservazioni da destare sospetti da essere stata generata da un meccanismo diverso.

Idealmente, dovresti trattare i punti dati come valori anomali solo dopo aver capito perché non appartengono al resto dei dati. Una semplice regola non è sufficiente. Un buon trattamento degli outlier si trova in Aggarwal (2013).

Riferimenti

Aggarwal CC (2013): Outlier Analysis. Springer.
Hawkins D (1980): Identificazione di valori anomali. Chapman and Hall.
Hoaglin, Mosteller e Tukey (2000): comprensione dell'analisi dei dati robusta ed esplorativa. Wiley.


7

Si presume spesso che la parola "outlier" significhi qualcosa di simile a "un valore di dati errato, fuorviante, errato o rotto e che pertanto dovrebbe essere omesso dall'analisi", ma non è ciò che Tukey intendeva con il suo uso di outlier. I valori anomali sono semplicemente punti lontani dalla mediana del set di dati.

Il tuo punto di aspettarsi valori anomali in molti set di dati è corretto e importante. E ci sono molte buone domande e risposte sull'argomento.

Rimozione dei valori anomali dai dati asimmetrici

È appropriato identificare e rimuovere gli outlier perché causano problemi?


2

Come per tutti i metodi di rilevamento anomali, è necessario usare attenzione e pensiero per determinare quali valori siano realmente anomali. Penso che il boxplot offra semplicemente una buona visualizzazione della diffusione dei dati e qualsiasi vero outlier sarà facile da catturare.


0

Penso che dovresti preoccuparti se non ottieni alcuni valori anomali come parte di una normale distribuzione, altrimenti forse dovresti cercare ragioni che non ce ne sono. Chiaramente dovrebbero essere rivisti per assicurarsi che non stiano registrando errori, ma per il resto sono prevedibili.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.