Direi che con dati come questi devi davvero mostrare i risultati su una scala trasformata. Questo è il primo imperativo e un problema più importante rispetto a come disegnare un diagramma a scatole.
Ma faccio eco a Frank Harrell nel sollecitare qualcosa di più informativo di una trama minimale, anche con alcuni punti estremi identificati. Hai abbastanza spazio per mostrare molte più informazioni. Ecco uno dei tanti esempi, una scatola ibrida e un diagramma quantico. Come nei tuoi dati, ci sono due gruppi che vengono confrontati.
Prenderò questi due punti uno per uno e dirò di più.
Scala trasformata
Nel caso più semplice, tutti i tuoi valori possono essere positivi e dovresti prima provare a utilizzare una scala logaritmica.
Se hai zeri esatti, una radice quadrata o una scala radice cubica migliorerà ancora l'estrema asimmetria. Alcune persone sono contente del log (valore + costante), dove costante è più comunemente 1, come modo per far fronte agli zeri.
Le implicazioni per i grafici a scatole dell'utilizzo di una scala trasformata sono sottili.
Se usi la convenzione Tukey comune di mostrare singolarmente tutti i punti oltre il quartile superiore + 1,5 IQR o il quartile inferiore - 1,5 IQR, probabilmente questi limiti dovrebbero essere calcolati sulla scala trasformata. Ciò non equivale a calcolare quei limiti sulla scala originale, quindi a trasformarli.
Al contrario, sosterrei quella che sembra essere ancora una convenzione di minoranza per la selezione dei quantili ai fini dei baffi. Uno dei numerosi vantaggi di ciò è che la trasformazione di quantile = quantile di trasformata, almeno abbastanza strettamente per scopi grafici nella maggior parte dei casi. (La stampa in piccolo è ogni volta che i quantili vengono calcolati mediante interpolazione lineare tra statistiche di ordini adiacenti.)
Questa convenzione quantile fu suggerita in modo abbastanza evidente da Cleveland (1985). Per la cronaca, trame di scatole migliorate con scatole di quartili, scatole più sottili di ottili esterni (punti 12,5 e 87,5%) e strisce di dati sono state utilizzate in geografia e climatologia da (ad esempio) Matthews (1936) e Grove (1956), sotto il nome "diagrammi di dispersione".
Più che trame di scatole
Le trame delle scatole furono reinventate da Tukey intorno al 1970 e pubblicamente pubblicizzate nel suo libro del 1977. Gran parte del suo scopo era quello di promuovere grafici che potevano essere rapidamente disegnati usando penna (cil) e carta in esplorazione informale. Stava anche suggerendo modi per identificare possibili valori anomali. Andava bene, ma ora abbiamo tutti accesso ai computer non è un problema disegnare grafici che mostrano, se non tutti i dati, almeno molti più dettagli. Il ruolo di riepilogo dei grafici a scatole è prezioso, ma un grafico può mostrare anche la struttura fine, nel caso in cui sia interessante o importante. (E ciò che i ricercatori ritengono poco interessante o poco importante potrebbe essere più sorprendente per i loro lettori.)
C'è molto spazio per educato disaccordo su ciò che funziona meglio, ma a mio avviso le trame a scatola nuda sono state piuttosto ipervendute.
Gli utenti di Stata possono trovare ulteriori informazioni sul programma che ha disegnato la figura in questo post di Statalist . Gli utenti di altri software non dovrebbero avere difficoltà a disegnare qualcosa di buono o migliore (altrimenti perché usare quel software?).
Cleveland, WS 1985. Elementi di dati grafici. Monterey, California: Wadsworth.
Grove, AT 1956. Erosione del suolo in Nigeria. In Steel, RW e Fisher, CA (Eds)
Saggi geografici sulle terre tropicali britanniche. Londra: George Philip, 79-111.
Matthews, HA 1936. Una nuova visione di alcune familiari cascate indiane. Rivista scozzese geografica : 52-84-97.
Tukey, JW 1977. Analisi dei dati esplorativi. Lettura, MA: Addison-Wesley.