Rappresentazione grafica di piccoli campioni


13

Ho un piccolo set di dati di 14 tempi separati per completare un'attività. Tuttavia, ho difficoltà a trovare un grafico appropriato da utilizzare per rappresentare graficamente i dati. Se il campione fosse più grande, utilizzerei un diagramma a scatole o un istogramma, ma non sono sicuro che sarebbe opportuno utilizzare in questo caso quando il campione è così piccolo.

Aggiornamento: i tempi sono 5.2.3.9.5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2


4
Non c'è niente di meglio che mostrare i dati reali a cui tieni come esempio concreto per incoraggiare le persone a pubblicare soluzioni diverse. In anticipo suggerisco dot o stripplot e grafici quantici con riquadro sovrapposto.
Nick Cox,

Risposte:


16

Penso che il principio cardinale qui sia che puoi e dovresti mostrare tutti i singoli valori. Anche se il dettaglio non è ovviamente interessante o utile, non c'è motivo per non mostrarlo o obbligare il lettore a decodificare (diciamo) un istogramma in cui le barre potrebbero rappresentare solo uno o due valori.

Offro qui un piccolo composito. In alto a sinistra c'è un diagramma a punti o strisce (almeno venti altri nomi sono stati usati per la stessa idea) presentata in orizzontale e in alto a destra la stessa idea presentata in verticale. Le istanze dello stesso valore sono abbinate per sovrapposizione.

In fondo c'è un diagramma a scatola quantile, nel senso di Parzen, in cui la scala orizzontale tacita è probabilità cumulativa (posizione del diagramma, in un gergo comune) e la scatola mediana e quartili convenzionale può essere disegnata in modo tale che (in linea di principio) metà i valori sono all'interno della scatola, come sempre pubblicizzato, e metà dei valori all'esterno. La linea orizzontale extra qui rappresenta la media. Alcune persone aggiungono mezzi per inscatolare i diagrammi come un punto in più o un simbolo marcatore; Trovo che possa scontrarsi con la visualizzazione dei dati stessi e preferisco una riga aggiuntiva. Se la linea per la mediana e la linea per la media sembrano coincidere, dovresti pensare a cosa fare. Quasi sempre la media e la mediana sono discernibilmente diverse.

Probabilmente è standard rendere esplicite le unità di misura sul grafico, ma non vedo quali siano.

inserisci qui la descrizione dell'immagine

(Ho deliberatamente spinto un punto in più qui, che è che i grafici possono essere molto piccoli ma comunque informativi. In pratica, non li renderei così piccoli.)

MODIFICARE:

Riferimenti incrociati aggiunti ai grafici a scatola quantica in senso lato di Parzen (ulteriori riferimenti nel secondo sotto; esistono altri usi di "grafici a scatola quantica")

Come posso misurare la differenza tra dati non parametrici con molti zeri?

Come utilizzare i grafici a scatole per trovare il punto in cui è più probabile che i valori provengano da condizioni diverse?

Come visualizzare due T-test indipendenti?

Come posso ottenere quale esperimento sta facendo meglio usando il test U di Mann-Whitney?

Shera, DM 1991. Alcuni usi di grafici quantili per migliorare la presentazione dei dati. Informatica e statistica 23: 50-53.

Militký, J. e M. Meloun. 1993. Alcuni strumenti grafici per l'analisi univariata di dati esplorativi. Analytica Chimica Acta 277: 215-221.

Meloun, M. e J. Militký. 1994. Trattamento dati computerizzato in chemiometria analitica. I. Analisi esplorativa di dati univariati. Carte chimiche 48: 151-157.

MODIFICA 2:

Il punto principale di questi thread non è solo quello di rispondere alla domanda immediata, ma di toccare domande molto simili che potrebbero interessare gli altri.

Alcuni altri disegni grafici in altre risposte qui mostrano identificatori, etichettati agnosticamente 1 ... 14 in assenza di altri dettagli. Supponendo che questi e altri identificatori fossero utili nell'interpretazione, un semplice disegno per mostrarli è un diagramma a punti (Cleveland). Qui ci sono due tra le diverse possibilità, in cui l'ordine degli identificatori è rispettato letteralmente (a sinistra) e in cui i valori sono ordinati (a destra). Se necessario, c'è molto spazio per etichette più lunghe.

Un vantaggio di questo design rispetto ai grafici a barre è che l'asse di risposta o di esito può iniziare con un valore diverso da zero se sembra una scelta migliore.

La rotazione dei grafici in modo che l'asse di risposta sia verticale può essere immaginata facilmente.

inserisci qui la descrizione dell'immagine


(+1) A volte ho visto il diagramma a punti o strisce, in particolare se orientato verticalmente, con i punti "impilati" allineati centralmente anziché allineati a sinistra (ovvero se ci fossero tre punti impilati, quello centrale sarebbe in linea con il punti non impilati). Questo dà una linea di simmetria che è esteticamente piacevole ma non sono sicuro di quanto sia vantaggioso praticamente. Forse rende più semplice sovrapporre una scatola. Questo ha un nome separato, lo sai? E c'è stato qualche consiglio per evitarlo / adottarlo?
Silverfish,

1
Inoltre, c'è qualche possibilità che tu possa fornire un riferimento per Parzen? Mi sono sempre piaciute queste trame, ma in realtà non ho mai letto un riferimento adeguato per loro.
Silverfish,

@Silverfish Le varianti centrate (centrate) sono sicuramente popolari e spesso discusse. Le piccole problematiche sembrano essere il desiderio di simmetria, come dici tu, rispetto a un design che assomigli allo stile dell'istogramma, che tendo a preferire leggermente, ma è una questione di gusti e circostanze. Ho aggiunto riferimenti incrociati e a sua volta darebbe il benvenuto agli altri.
Nick Cox,

3

@ Nick Cox ha già dato alcuni buoni esempi, altre due opzioni che uso un po 'frequentemente sono il diagramma a riquadri con punti sovrapposti o leggermente inclinati,

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine

Con il codice R.

times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')

boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')

EDIT: Puoi anche usare una trama di violino se lo desideri

ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()

inserisci qui la descrizione dell'immagine


1
Grazie molte per la risposta. Ero riluttante a usare grafici a scatole nelle mie analisi originariamente a causa delle dimensioni del campione. Ma dopo aver guardato diversi libri di testo sembra che la mia dimensione del campione sia sufficiente.
Eamonn,

1

La tua domanda mi ha ricordato la tecnica descritta in questo post sul blog . Riguarda la visualizzazione di eventi discreti.

Il trucco principale è tracciare the time before an eventx the time after an event.

I tuoi dati visualizzati [1]

Questo potrebbe essere un caso, ma nella parte centrale superiore non sono presenti dati. Quindi c'è qualche struttura visibile.


Il Rcodice rapido e sporco .

data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event"  )
for (i in 1:12) {
    text(x[i],y[i], i)
}

OP ha detto 14 volte separate. Ho letto che ciò implica che non si tratta di una serie. Se sono una serie, la tua idea è sicuramente pertinente.
Nick Cox,

Probabilmente hai ragione. Tuttavia, anche se sono non una serie, il grafico si visualizza dipendenze tra volte. Ovviamente allora le etichette degli assi sono sbagliate.
Harald Thomson,

2
Solo l'OP può chiarire esattamente quali siano i dati, ma non credo che questo grafico vince in entrambi i modi. Se i dati sono tempi separati, il grafico non ha senso a meno che non vi sia un significato nell'ordine in cui vengono forniti i valori.
Nick Cox,

Fyi textaccetta argomenti vettoriali - text(x, y, 1:12)dovrebbe funzionare.
MichaelChirico,

1

Un'altra idea, dal momento che stai usando il tempo.

Un diagramma di pista - un grafico a barre con coordinate polari - dà lo stesso effetto di un cronometro:

pista

Idealmente le etichette di osservazione sarebbero sovrapposte sulle barre o almeno sull'altra estremità. In questo momento lo spettatore ha lo sforzo extra di tenere traccia di quale osservazione è quale (su / giù) quando si effettuano i confronti.


2
Devo considerarlo come una tecnica grafica eccentrica, anzi sincera, assolutamente perversa. L'occhio non vede nemmeno la lunghezza dell'arco, ma un'area da decodificare come tale, ma il cervello deve intervenire e sottolineare che solo l'angolo di rotazione è informativo. È difficile anche vedere esattamente quali valori sono inferiori, uguali o maggiori l'uno dell'altro, il che è immediato in qualsiasi stile di grafico accettabile.
Nick Cox,

L'unico vantaggio che posso vedere per questo progetto, a meno che la classificazione non sia per un design insolito, è che gli identificatori da 1 a 14 sono immediati in questo progetto. Ho raccolto questo punto in una modifica alla mia risposta.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.