Esiste una variante boxplot per i dati distribuiti di Poisson?


33

Mi piacerebbe sapere se esiste una variante boxplot adattata ai dati distribuiti di Poisson (o forse ad altre distribuzioni)?

Con una distribuzione gaussiana, i baffi posizionati su L = Q1 - 1,5 IQR e U = Q3 + 1,5 IQR, il boxplot ha la proprietà che ci saranno all'incirca tanti valori anomali bassi (punti sotto L) quanti sono i valori anomali alti (punti sopra U ).

Se i dati sono distribuiti da Poisson, tuttavia, ciò non vale più a causa dell'asimmetria positiva che otteniamo Pr (X <L) <Pr (X> U) . Esiste un modo alternativo per posizionare i baffi in modo tale da "adattarsi" a una distribuzione di Poisson?


2
Prova prima a registrarlo? Potresti anche dire a cosa vuoi che il tuo boxplot sia "ben adattato".
conjugateprior,

2
Esiste un problema con questa modifica: le persone sono abituate alla definizione standard del diagramma a scatole e molto probabilmente lo assumeranno quando guarderanno la trama, che ti piaccia o no. Pertanto, ciò può creare più confusione che guadagno.

@mbq:> la cosa con i grafici a scatole è che combinano due funzioni in un unico strumento; una funzione di visualizzazione dei dati (la casella) e una funzione di rilevamento anomalo (i baffi). Quello che dici è assolutamente vero per il primo, ma il secondo potrebbe usare una correzione dell'inclinazione.
user603

@conjugateprior Ecco un esempio di Poisson: 0, 0, 1, 0, 1, 2, 0, 0, 1, 0, 0 .... noti un problema con il solo prendere i registri?
Glen_b -Restastate Monica il

@Glen_b Questo deve essere il motivo per cui è un commento, non una risposta. E perché ha due parti.
conjugateprior il

Risposte:


31

I boxplot non sono stati progettati per assicurare in tutti i casi una bassa probabilità di superare le estremità dei baffi: sono intesi e generalmente utilizzati come semplici caratterizzazioni grafiche della maggior parte di un set di dati. In quanto tali, vanno bene anche quando i dati hanno distribuzioni molto distorte (anche se potrebbero non rivelare altrettante informazioni quanto le distribuzioni approssimativamente non distorte).

Quando i grafici a scatole si inclinano, come faranno con una distribuzione di Poisson, il passo successivo è di ri-esprimere la variabile sottostante (con una trasformazione monotonica, crescente) e ridisegnare i grafici a scatole. Poiché la varianza di una distribuzione di Poisson è proporzionale alla sua media, una buona trasformazione da utilizzare è la radice quadrata.

Ogni boxplot raffigura 50 iid attinge da una distribuzione di Poisson con intensità data (da 1 a 10, con due prove per ogni intensità). Notare che l'asimmetria tende ad essere bassa.

grafici a scatole affiancate

Gli stessi dati su una scala di radice quadrata tendono ad avere grafici a scatola leggermente più simmetrici e (tranne per l'intensità più bassa) hanno QI approssimativamente uguali indipendentemente dall'intensità).

grafici a scatole di dati trasformati

In breve, non modificare l'algoritmo boxplot: riesprimi invece i dati.


Per inciso, le possibilità rilevanti di calcolare sono queste: qual è la probabilità che una variabile normale indipendente superi la recinzione superiore (inferiore) U ( L ) come stimato da n estrazioni indipendenti dalla stessa distribuzione? XULn Ciò spiega il fatto che i recinti in un diagramma a scatole non sono calcolati dalla distribuzione sottostante ma sono stimati dai dati. Nella maggior parte dei casi, le probabilità sono molto superiori all'1%! Ad esempio, qui (basato su 10.000 prove Monte-Carlo) è un istogramma delle possibilità del registro (base 10) per il caso :n=9

istogramma di possibilità

(Poiché la distribuzione normale è simmetrica, questo istogramma si applica a entrambe le recinzioni.) Il logaritmo dell'1% / 2 è circa -2,3. Chiaramente, la maggior parte delle volte la probabilità è maggiore di questa. Circa il 16% delle volte supera il 10%!

Si scopre (non ingombrerò questa risposta con i dettagli) che le distribuzioni di queste probabilità sono paragonabili al caso normale (per la piccola ) anche per le distribuzioni di Poisson di intensità pari a 1, che è piuttosto distorta. La differenza principale è che di solito è meno probabile trovare un valore anomalo basso e un po 'più probabilità di trovare un valore anomalo alto.n


1
+1, non avevo mai visto questa discussione prima. Ho fatto (credo) lo stesso punto che viene discusso qui dopo la regola orizzontale in un modo diverso in questo post: se eliminare i casi contrassegnati come anomali da software statistico .
gung - Ripristina Monica

Sì, è lo stesso punto @ gung - e hai pubblicato una bella risposta lì.
whuber

26

Esiste una generalizzazione di grafici a scatole standard di cui sono a conoscenza in cui le lunghezze dei baffi vengono adattate per tenere conto dei dati distorti. I dettagli sono meglio spiegati in un white paper molto chiaro e conciso (Vandervieren, E., Hubert, M. (2004) "Un diagramma rettificato per le distribuzioni distorte", vedi qui ).

Rrobustbase :: adjbox ()Libra

Personalmente trovo che sia un'alternativa migliore alla trasformazione dei dati (anche se si basa anche su una regola ad-hoc, vedi il white paper).

Per inciso, trovo che ho qualcosa da aggiungere all'esempio di whuber qui. Nella misura in cui stiamo discutendo il comportamento dei baffi, dovremmo davvero considerare anche cosa succede quando si considerano i dati contaminati:

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

In questo modello di contaminazione, B1 ha essenzialmente una distribuzione log-normale salvo il 20% dei dati che sono metà outlier, metà right outlier (il punto di breakdown di adjbox è lo stesso di quello dei boxplot normali, cioè presuppone che al massimo Il 25 percento dei dati può essere negativo).

I grafici rappresentano i classici grafici a scatole dei dati trasformati (utilizzando la trasformazione radice quadrata)

boxplot classico sulla trasformazione quadrata dei dati

e il diagramma a scatola modificato dei dati non trasformati.

diagramma rettificato dei dati non trasformati

Rispetto ai grafici a scatola regolati, la prima opzione maschera i veri valori anomali ed etichetta i buoni dati come valori anomali. In generale, riuscirà a nascondere qualsiasi evidenza di asimmetria nei dati classificando i punti offensivi come valori anomali.

In questo esempio, l'approccio dell'uso del boxplot standard sulla radice quadrata dei dati trova 13 valori anomali (tutti a destra), mentre il boxplot modificato trova 10 valori anomali a destra e 14 a sinistra.

EDIT: trama rettificata in poche parole.

Nei boxplot 'classici' i baffi sono posti a:

Q1Q3

Q1Q3

Questa regola empirica è ad-hoc: la giustificazione è che se la parte non contaminata dei dati fosse approssimativamente gaussiana, meno dell'1% dei dati positivi verrebbe classificato come cattivo usando questa regola.

Un punto debole di questa regola di recinzione, come sottolineato dall'OP, è che la lunghezza dei due baffi è identica, il che significa che la regola di recinzione ha senso solo se la parte incontaminata dei dati ha una distribuzione simmetrica.

Un approccio popolare è quello di preservare la regola della recinzione e di adattare i dati. L'idea è di trasformare i dati usando una trasformazione monotona di correzione dell'inclinazione (radice quadrata o log o più in generale trasformazioni box-cox). Questo è un approccio un po 'disordinato: si basa sulla logica circolare (la trasformazione dovrebbe essere scelta in modo da correggere l'asimmetria della parte incontaminata dei dati, che è a questo stadio un non osservabile) e tende a rendere i dati più difficili da interpretare visivamente. Ad ogni modo, questa rimane una strana procedura in base alla quale si cambiano i dati per preservare quella che è dopo tutto una regola ad hoc.

Un'alternativa è quella di lasciare intatti i dati e modificare la regola del baffo. Il diagramma a scatola regolato consente di variare la lunghezza di ciascun baffo in base a un indice che misura l'asimmetria della parte incontaminata dei dati:

Q1exp(M,α)Q3exp(M,β)

Mα β

M0

MMαβ

Q1exp(-4M)Q3exp(3M)M0

Q1exp(-3M)Q3exp(4M)M<0


1
Sarei interessato a sapere come ritieni che il mio esempio sia "inutile" - il solo marchio come tale non è costruttivo. Devo ammettere che l'esempio è piuttosto deludente, nel senso che la trasformazione dei dati non rappresenta un miglioramento spettacolare. È colpa delle distribuzioni di Poisson: non sono abbastanza distorte da valere la pena di tutta questa analisi!
whuber

@whuber:> prima, scusami per il tono: proveniva da una prima bozza non modificata ed è stato corretto (in genere scrivo paragrafi stenografici intesi come nota a me stesso, quindi li ripeto ripetutamente - questo si è perso nel lunga risposta intricata). Ora per il critico stesso: il tuo esempio descrive il comportamento della soluzione usando la trasformazione nel caso di dati non contaminati. Secondo me, la regola del baffo dovrebbe, forse preliminare, essere valutata tenendo presente un modello di contaminazione.
user603

@utente Grazie per il chiarimento. Non mi dispiace la critica, che è interessante, e apprezzo i riferimenti ai grafici rettificati. (+1)
whuber

Concordo con l'utente603 che esiste una differenza se si controlla una distribuzione pura (come nella risposta dei whubers) o si hanno dati da una distribuzione più alcuni valori anomali (discussi qui come contaminazione ). Dal mio punto di vista, nelle impostazioni reali, viene utilizzato un diagramma a scatole per cercare valori anomali. Di conseguenza, un'analisi dei grafici a scatola che omette i valori anomali in qualche modo non rispecchia il punto. Pertanto, questa risposta sembra servire meglio allo scopo di utilizzare i grafici a scatole.
Henrik,

2
@Henrik L'identificazione dei valori anomali è solo uno dei molti scopi dei grafici a scatole. L'approccio di Tukey è stato il primo a trovare una re-espressione appropriata dei dati che ha reso il centro della loro distribuzione approssimativamente simmetrico. Ciò ovvia alla necessità di qualsiasi adattamento per l'asimmetria. Ciò ha già molto da fare in termini di confronto tra i grafici a scatole, ed è qui che diventano veramente utili. "Aggiustando" i baffi si perdono completamente su questo problema fondamentale. Pertanto sarei diffidente nell'utilizzare l'adeguamento: la sua necessità è un segnale che l'analisi non viene eseguita bene.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.