Regole "Quando usare il boxplot e quando il barplot" (in sintesi?)


14

Sia box-and-whisker trama e grafico a barre sono la grafica appropriate per ANOVA secondo The R Libro (Crawley, 2013), ma che è più appropriata ? Suppongo che dipenda dalla situazione ... qualcuno può aiutarmi?


5
" Sebbene un problema possa essere risolto con diversi test alternativi - c'è sempre un solo test che è il più appropriato da usare " - Non sono d'accordo con quella frase; Non penso sia sempre vero.
Glen_b -Restate Monica

5
Sono d'accordo con @Glen_b qui e suggerisco che anche questa formulazione manchi il punto chiave. L'identificazione del test più appropriato dipende minimamente dalla conoscenza dell'esatto processo di generazione dei dati, che è, per così dire, insolito. È più comune che ci siano diversi test possibili con diversi vantaggi e svantaggi.
Nick Cox,

1
Non penso che vorrei nemmeno menzionare i test (ipotesi o significatività) in qualsiasi breve caratterizzazione del buon pensiero statistico ... Penso che questo sia un problema secondario, tuttavia. La tua domanda è abbastanza chiara senza di essa.
Nick Cox,

Risposte:


18

In particolare per l'illustrazione grafica di ANOVA:

  • Un diagramma a barre o un grafico a barre è molto meglio di niente graficamente per ANOVA, ma come comunemente tracciato, entrambi sono indiretti o incompleti come un riepilogo grafico.

  • ANOVA riguarda il confronto di mezzi in un contesto di variazioni di uno o più tipi, quindi il grafico più appropriato mostrerebbe, minimamente, i mezzi così come i dati grezzi. Le deviazioni standard di gruppo (SD) o le relative quantità non danneggerebbero.

  • =+1.5 IQR. Tale convenzione può essere utile per mostrare grossolani valori anomali che possono essere problematici per ANOVA, ma né i mediani né i quartili svolgono alcun ruolo in ANOVA e se i mezzi approssimativi mediani sono un punto da controllare, non assumere. Comunemente, gli analisti di dati esperti considerano ad esempio marcati valori anomali marcati e / o asimmetria della distribuzione come segno di un problema che richiede un'azione, come la trasformazione dei dati o la necessità di un modello lineare generalizzato con una funzione di collegamento non identitario. Tuttavia è sorprendente il numero di libri di testo e di altri account che mostrano diagrammi a riquadri quando viene presentato un ANOVA ma non menzionare gli elefanti che non si trovano nella stanza, i mezzi che non sono tracciati.

  • Al contrario, il tipo più comune di grafico a barre in questo contesto riassume i dati mediante SD o errori standard, ma omette qualsiasi visualizzazione dei singoli punti dati in caso contrario. Quindi, ad esempio, valori anomali o asimmetria marcata possono essere dedotti solo da mezzi fuori linea o variabilità gonfiata all'interno di singoli gruppi.

In generale, ci sono molti suggerimenti su quali tipi di grafici sono utili ma poco consenso su quali siano i migliori. Suggerirei come criteri che un buon grafico mostra

  • Il modello completo di variazione nei dati, almeno come sfondo o contesto

  • Riassunti pertinenti dei dati, in particolare quelli rilevanti per il modello da intrattenere o i descrittori considerati

  • Indicazioni di possibili problemi con i dati che mettono in dubbio le ipotesi in corso.

Esistono diversi progetti che aiutano ANOVA, come grafici a punti o strisce con mezzi aggiunti e SE.

Questo articolo di John Tukey spiega la differenza tra grafici di propaganda e grafici analitici che è pertinente qui. Troppe illustrazioni grafiche di ANOVA sono grafici di propaganda (guarda! I gruppi sono molto diversi) senza molta analisi (e cos'altro possiamo imparare sui dati o sui limiti della tecnica in questa applicazione?).


Che ne dici di trame di violini con, idealmente con media, sd e valori anomali disegnati?
ziggystar,

Le trame di violino possono essere utili. Personalmente preferisco qualcosa di più vicino ai dati grezzi, in modo da poter vedere anche la modalità e la granularità.
Nick Cox,

8

Non confonderti tra i grafici a barre (una barra viene utilizzata per mostrare ogni quantità di interesse) e i grafici della dinamite (una barra mostra la media di ciascun gruppo, più le barre di errore). I grafici della dinamite non sono MAI accettabili perché nascondono la distribuzione dei dati senza motivo.

Sì, mi rendo conto che questo è di gran lunga il tipo più comune di trama. È un grosso problema che riflette l'importanza (bassa) che i ricercatori attribuiscono alla forma dei loro dati. Se fossi un detective in cerca di un'arma del delitto, sarebbe meglio se un testimone ti dicesse 1) solo la posizione e le dimensioni dell'arma? o 2) la posizione, le dimensioni e la forma?

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/TatsukiRcode/Poster3.pdf


Hai altre risorse sul perché le trame di dinamite non sono l'ideale?
mguzmann,

@mguzmann Siamo spiacenti, io no. Mi chiedevo anche chi avesse avuto l'idea, la sua adozione nel tempo, ecc. E non riuscissi a trovare nulla al riguardo. Immagino che si sia evoluto dalla segnalazione delle tabelle dei mezzi +/- errore nei giorni precedenti i computer. Ho visto articoli degli anni '30 che riescono a pubblicare tabelle dell'intero set di dati, quindi non sono sicuro che la pratica sia mai stata davvero giustificata. Ad esempio: Hedrich AW. Stime mensili della popolazione infantile "suscettibile" al morbillo, 1900-1931, Baltimora, Maryland. Am J Hyg 1933; 17: 613-636.
Livido
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.