Come presentare un diagramma a scatole con un valore anomalo estremo?


17

Potrei usare alcune indicazioni sulla presentazione di alcuni dati.

Questo primo diagramma è un confronto caso-controllo per la citochina IL-10. Ho impostato manualmente l'asse y per includere il 99% dei dati.

IL-10 Con asse Y manuale

Il motivo per cui ho impostato manualmente questo è perché il gruppo di casi ha un valore anomalo estremo. Con valore anomalo

I miei collaboratori sono restii a eseguire una rimozione anomala del nostro set di dati. Sono d'accordo, ma preferirebbero di no. Sarebbe la soluzione ovvia. Ma se ho intenzione di conservare tutti i dati e non rimuovere questo valore anomalo, come posso presentare questo boxplot in modo ottimale? Asse diviso? È accettabile usare solo il primo grafico e notare che è stato costruito per includere tutti i dati? (Questa opzione mi sembra disonesta). Qualsiasi consiglio sarebbe grande.


5
Perché non presentare entrambi i grafici?
Alexis,

Risposte:


24

Direi che con dati come questi devi davvero mostrare i risultati su una scala trasformata. Questo è il primo imperativo e un problema più importante rispetto a come disegnare un diagramma a scatole.

Ma faccio eco a Frank Harrell nel sollecitare qualcosa di più informativo di una trama minimale, anche con alcuni punti estremi identificati. Hai abbastanza spazio per mostrare molte più informazioni. Ecco uno dei tanti esempi, una scatola ibrida e un diagramma quantico. Come nei tuoi dati, ci sono due gruppi che vengono confrontati.

inserisci qui la descrizione dell'immagine

Prenderò questi due punti uno per uno e dirò di più.

Scala trasformata

Nel caso più semplice, tutti i tuoi valori possono essere positivi e dovresti prima provare a utilizzare una scala logaritmica.

Se hai zeri esatti, una radice quadrata o una scala radice cubica migliorerà ancora l'estrema asimmetria. Alcune persone sono contente del log (valore + costante), dove costante è più comunemente 1, come modo per far fronte agli zeri.

Le implicazioni per i grafici a scatole dell'utilizzo di una scala trasformata sono sottili.

Se usi la convenzione Tukey comune di mostrare singolarmente tutti i punti oltre il quartile superiore + 1,5 IQR o il quartile inferiore - 1,5 IQR, probabilmente questi limiti dovrebbero essere calcolati sulla scala trasformata. Ciò non equivale a calcolare quei limiti sulla scala originale, quindi a trasformarli.

Al contrario, sosterrei quella che sembra essere ancora una convenzione di minoranza per la selezione dei quantili ai fini dei baffi. Uno dei numerosi vantaggi di ciò è che la trasformazione di quantile = quantile di trasformata, almeno abbastanza strettamente per scopi grafici nella maggior parte dei casi. (La stampa in piccolo è ogni volta che i quantili vengono calcolati mediante interpolazione lineare tra statistiche di ordini adiacenti.)

Questa convenzione quantile fu suggerita in modo abbastanza evidente da Cleveland (1985). Per la cronaca, trame di scatole migliorate con scatole di quartili, scatole più sottili di ottili esterni (punti 12,5 e 87,5%) e strisce di dati sono state utilizzate in geografia e climatologia da (ad esempio) Matthews (1936) e Grove (1956), sotto il nome "diagrammi di dispersione".

Più che trame di scatole

Le trame delle scatole furono reinventate da Tukey intorno al 1970 e pubblicamente pubblicizzate nel suo libro del 1977. Gran parte del suo scopo era quello di promuovere grafici che potevano essere rapidamente disegnati usando penna (cil) e carta in esplorazione informale. Stava anche suggerendo modi per identificare possibili valori anomali. Andava bene, ma ora abbiamo tutti accesso ai computer non è un problema disegnare grafici che mostrano, se non tutti i dati, almeno molti più dettagli. Il ruolo di riepilogo dei grafici a scatole è prezioso, ma un grafico può mostrare anche la struttura fine, nel caso in cui sia interessante o importante. (E ciò che i ricercatori ritengono poco interessante o poco importante potrebbe essere più sorprendente per i loro lettori.)

C'è molto spazio per educato disaccordo su ciò che funziona meglio, ma a mio avviso le trame a scatola nuda sono state piuttosto ipervendute.

Gli utenti di Stata possono trovare ulteriori informazioni sul programma che ha disegnato la figura in questo post di Statalist . Gli utenti di altri software non dovrebbero avere difficoltà a disegnare qualcosa di buono o migliore (altrimenti perché usare quel software?).

Cleveland, WS 1985. Elementi di dati grafici. Monterey, California: Wadsworth.

Grove, AT 1956. Erosione del suolo in Nigeria. In Steel, RW e Fisher, CA (Eds) Saggi geografici sulle terre tropicali britanniche. Londra: George Philip, 79-111.

Matthews, HA 1936. Una nuova visione di alcune familiari cascate indiane. Rivista scozzese geografica : 52-84-97.

Tukey, JW 1977. Analisi dei dati esplorativi. Lettura, MA: Addison-Wesley.


1
Non ho mai visto una tale giustapposizione di grafici a scatole ed ECDF prima. Veramente cool! Cosa ne pensi della sovrapposizione dei due ECDF in un pannello separato?
Frank Harrell,

2
@Frank Harrell Grazie. Anche la sovrapposizione è una buona idea. Vedi ad esempio stata-journal.com/sjpdf.html?articlenum=gr0018 per alcuni esempi nel mio lavoro.
Nick Cox,

14

Non togliere nulla all'ottima risposta di Nick, che penso valga la pena e un voto, ma volevo esplorare alcune possibilità.

Con dati così fortemente distorti su diversi ordini di grandezza, la trama su una scala di registro è spesso abbastanza rivelatrice; si noti che è ancora possibile avere segni di spunta ed etichette dei segni di spunta nei valori originali. (Sono d'accordo con i punti di Nick relativi alle trasformazioni, quindi non mi espanderò ulteriormente su questo.)

Un'altra opzione oltre alla trasformazione è fare qualcosa come la seconda trama, ma includere un'indicazione di tutti i valori non tracciati:

  inserisci qui la descrizione dell'immagine

In questo modo non stai rimuovendo i valori anomali, ma semplicemente visualizzandoli in modo diverso.

Tuttavia, mi unirei a Frank e Nick nel suggerire di usare un display più informativo di un semplice diagramma a scatole: la combinazione di un diagramma a scatole con un diagramma quantile nel post di Nick sembra una nozione particolarmente buona, anche se si potrebbe tracciare leggermente il diagramma quantile sopra (o sotto , come qui) la casella corrispondente anziché accanto:

  inserisci qui la descrizione dell'immagine

Se non stai facendo una cosa del genere (solo andando con un semplice diagramma a scatole, diciamo), suggerirei scatole sostanzialmente più strette.


3
Anche la sovrapposizione di grafici quantici e box è interessante. Sottolinea che la trama della scatola è una riduzione della trama quantile, sebbene ad alcuni la trama della scatola possa sembrare ridondante. Per una forte enfasi sulla relazione tra i due grafici, vedere ad esempio Parzen, E. 1979. Modellazione di dati statistici non parametrici. Journal of American Statistical Association 74: 105-121
Nick Cox,

Hai il set di dati del PO? O stai raschiando il grafico / fingendolo?
Nick Cox,

2
@ Nick Sto solo fingendo, in sostanza; Ho effettivamente raschiato i punti estremi (solo a mano, c'erano così pochi) e quindi ho generato valori al di sotto dei quartili superiori campionando da 3 uniformi tra i valori noti (i 3 quartili e il minimo) e tra i quartili superiori e la fine dei baffi superiori con esponenziali, quindi aggiunto i punti estremi (solo così i miei grafici a scatole sarebbero simili). Almeno questo è il nocciolo dell'idea. I punti estremi non saranno precisi, quindi i valori stampati sulla mia trama sono più simili a esempi.
Glen_b -Restate Monica

@Glen_b Posso fare una domanda separata se preferisci, ma quale metodo hai usato per sovrapporre il diagramma quantile con il diagramma a scatole?
Tavrock,

@Tavrock Sono passati due anni e mezzo da quando l'ho scritto, quindi immagino. La cosa ovvia da fare è chiamare pointsper visualizzare i valori quantili (sembra qualcosa xs=sort(x); points(ppoints(xs),xs)sulla falsariga di dopo il boxplot, ma a un attento esame i punti sono sotto il boxplot, quindi potrebbe essere stato tracciato quindi boxplot con add = TRUE oppure potrebbe essere stato un
diagramma a scatole

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.