Esiste una generalizzazione di grafici a scatole standard di cui sono a conoscenza in cui le lunghezze dei baffi vengono adattate per tenere conto dei dati distorti. I dettagli sono meglio spiegati in un white paper molto chiaro e conciso (Vandervieren, E., Hubert, M. (2004) "Un diagramma rettificato per le distribuzioni distorte", vedi qui ).
Rrobustbase :: adjbox ()Libra
Personalmente trovo che sia un'alternativa migliore alla trasformazione dei dati (anche se si basa anche su una regola ad-hoc, vedi il white paper).
Per inciso, trovo che ho qualcosa da aggiungere all'esempio di whuber qui. Nella misura in cui stiamo discutendo il comportamento dei baffi, dovremmo davvero considerare anche cosa succede quando si considerano i dati contaminati:
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
In questo modello di contaminazione, B1 ha essenzialmente una distribuzione log-normale salvo il 20% dei dati che sono metà outlier, metà right outlier (il punto di breakdown di adjbox è lo stesso di quello dei boxplot normali, cioè presuppone che al massimo Il 25 percento dei dati può essere negativo).
I grafici rappresentano i classici grafici a scatole dei dati trasformati (utilizzando la trasformazione radice quadrata)
e il diagramma a scatola modificato dei dati non trasformati.
Rispetto ai grafici a scatola regolati, la prima opzione maschera i veri valori anomali ed etichetta i buoni dati come valori anomali. In generale, riuscirà a nascondere qualsiasi evidenza di asimmetria nei dati classificando i punti offensivi come valori anomali.
In questo esempio, l'approccio dell'uso del boxplot standard sulla radice quadrata dei dati trova 13 valori anomali (tutti a destra), mentre il boxplot modificato trova 10 valori anomali a destra e 14 a sinistra.
EDIT: trama rettificata in poche parole.
Nei boxplot 'classici' i baffi sono posti a:
Q1Q3
Q1Q3
Questa regola empirica è ad-hoc: la giustificazione è che se la parte non contaminata dei dati fosse approssimativamente gaussiana, meno dell'1% dei dati positivi verrebbe classificato come cattivo usando questa regola.
Un punto debole di questa regola di recinzione, come sottolineato dall'OP, è che la lunghezza dei due baffi è identica, il che significa che la regola di recinzione ha senso solo se la parte incontaminata dei dati ha una distribuzione simmetrica.
Un approccio popolare è quello di preservare la regola della recinzione e di adattare i dati. L'idea è di trasformare i dati usando una trasformazione monotona di correzione dell'inclinazione (radice quadrata o log o più in generale trasformazioni box-cox). Questo è un approccio un po 'disordinato: si basa sulla logica circolare (la trasformazione dovrebbe essere scelta in modo da correggere l'asimmetria della parte incontaminata dei dati, che è a questo stadio un non osservabile) e tende a rendere i dati più difficili da interpretare visivamente. Ad ogni modo, questa rimane una strana procedura in base alla quale si cambiano i dati per preservare quella che è dopo tutto una regola ad hoc.
Un'alternativa è quella di lasciare intatti i dati e modificare la regola del baffo. Il diagramma a scatola regolato consente di variare la lunghezza di ciascun baffo in base a un indice che misura l'asimmetria della parte incontaminata dei dati:
Q1exp( M, α )Q3exp( M, β)
Mα β
M≈ 0
MMαβ
Q1exp( - 4 M)Q3exp( 3 M)M≥ 0
Q1exp( - 3 M)Q3exp( 4 M)M< 0