Come interpretare i grafici a scatole dentellate


11

Mentre facevo un po 'di EDA ho deciso di usare un diagramma a scatole per illustrare la differenza tra due livelli di un fattore.

Il modo in cui ggplot ha reso la trama della scatola è stato soddisfacente, ma leggermente semplicistico (prima trama sotto). Mentre cercavo le caratteristiche dei grafici a scatole, ho iniziato a sperimentare le tacche.

Capisco che le tacche mostrano l'IC attorno alla mediana e che se le tacche di due caselle non si sovrappongono, c'è una "forte evidenza" - con un livello di confidenza del 95% - che le mediane differiscono.

Nel mio caso (seconda trama), le tacche non si sovrappongono in modo significativo. Ma perché il fondo della scatola sul lato destro assume quella strana forma?

Tracciare gli stessi dati in un diagramma di violino non indicava nulla di insolito sulla densità di probabilità del violino corrispondente.

fig.1 trama

fig.2 trama intagliata


1
Nel tuo codice ggplot dovresti usare fill = factor (am) poiché attualmente am viene utilizzato come variabile numerica.
anche

È un ottimo posto @rnso
RDJ,

Qualcuno può pubblicare i dati originali? Immagino che provengano da una scatola di sabbia standard per ggplot2. Mi piace l'idea di tracciare anche i singoli punti dati, ma è frustrato in quanto i punti all'interno della scatola scura sono resi invisibili.
Nick Cox

Risposte:


18

Nel mio caso (seconda trama), le tacche non si sovrappongono in modo significativo. Ma perché il fondo della scatola sul lato destro assume quella strana forma? Come lo spiego?

Indica che il 25 ° percentile è di circa 21, 75 ° percentile di circa 30,5. E i limiti inferiore e superiore della tacca sono circa 18 e 27.

Un motivo comune è che la distribuzione è distorta o che la dimensione del campione è bassa. Il limite della tacca si basa su:

medioun'n±1.57×ioQRn

Se la distanza tra la mediana e il 25 ° percentile e la distanza tra la mediana e il 75 ° percentile sono estremamente diverse (come quella a destra) e / o la dimensione del campione è bassa, la tacca sarà più ampia. Se è abbastanza ampio che il limite della tacca è più estremo del 25 ° e 75 ° percentile (aka, la scatola), allora il diagramma della casella dentellata mostrerà questa forma "dentro e fuori".


1
Grazie mille per la tua spiegazione dettagliata. Permettetemi di chiedere, perché i limiti inferiore e superiore della tacca sono circa 17 e 24, non circa 18 e 27 (sul diagramma a destra)?
Denis

@Denis, grazie per averlo colto. L'ho rivisto.
Penguin_Knight
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.