La definizione standard di un outlier per un diagramma Box e Whisker è punti al di fuori dell'intervallo , dove e è il primo quartile e è il terzo quartile dei dati.
Qual è la base per questa definizione? Con un gran numero di punti, anche una distribuzione perfettamente normale restituisce valori anomali.
Ad esempio, supponiamo di iniziare con la sequenza:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Questa sequenza crea una classifica percentile di 4000 punti di dati.
Il test della normalità per qnorm
questa serie comporta:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
I risultati sono esattamente come previsto: la normalità di una distribuzione normale è normale. La creazione di qqnorm(qnorm(xseq))
crea (come previsto) una linea retta di dati:
Se viene creato un diagramma a scatole degli stessi dati, boxplot(qnorm(xseq))
produce il risultato:
Il boxplot, diversamente shapiro.test
, ad.test
o qqnorm
identifica diversi punti come valori anomali quando la dimensione del campione è sufficientemente grande (come in questo esempio).