Vale la pena essere chiari sullo scopo della trama. In generale, esistono due diversi tipi di obiettivi: è possibile creare grafici per valutare autonomamente le ipotesi che si stanno formando e guidare il processo di analisi dei dati, oppure è possibile creare grafici per comunicare un risultato ad altri. Questi non sono gli stessi; ad esempio, molti spettatori / lettori della trama / analisi potrebbero essere statisticamente poco sofisticati e potrebbero non avere familiarità con l'idea di, diciamo, uguale varianza e il suo ruolo in un test t. Vuoi che la tua trama trasmetta le informazioni importanti sui tuoi dati anche ai consumatori come loro. Stanno implicitamente confidando che tu abbia fatto le cose correttamente. Dalla configurazione della tua domanda, ho capito che stai cercando quest'ultimo tipo.
Realisticamente, il più comune e trama accettato per comunicare i risultati di un test t 1 ad altri (annullamento se è effettivamente il più appropriato) è un grafico a barre di mezzi con barre di errore standard. Ciò corrisponde molto bene al test t in quanto un test t confronta due mezzi usando i loro errori standard. Quando si hanno due gruppi indipendenti, questo produrrà un quadro intuitivo, anche per quelli statisticamente poco sofisticati, e le persone (disponibili per i dati) possono "vedere immediatamente che provengono probabilmente da due diverse popolazioni". Ecco un semplice esempio usando i dati di @ Tim:
nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se = c(sd(nonsmokers)/sqrt(length(nonsmokers)),
sd(smokers)/sqrt(length(smokers)))
windows()
bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
box()
arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)
Detto questo, gli specialisti della visualizzazione dei dati in genere disdegnano questi grafici. Sono spesso derisi come "trame di dinamite" (cfr. Perché i trame di dinamite sono cattivi ). In particolare, se si hanno solo pochi dati, si consiglia spesso di mostrare semplicemente i dati stessi . Se i punti si sovrappongono, è possibile spostarli in senso orizzontale (aggiungere una piccola quantità di rumore casuale) in modo che non si sovrappongano più. Poiché un test t riguarda fondamentalmente la media e gli errori standard, è meglio sovrapporre la media e gli errori standard su tale trama. Ecco una versione diversa:
set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE,
xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)
Se disponi di molti dati, i boxplot potrebbero essere una scelta migliore per ottenere una rapida panoramica delle distribuzioni e puoi anche sovrapporre i mezzi e le SE.
data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see
Trame semplici dei dati e box box sono sufficientemente semplici da consentire alla maggior parte delle persone di capirli anche se non sono molto esperti statisticamente. Tieni presente, tuttavia, che nessuno di questi semplifica la valutazione della validità di aver utilizzato un test t per confrontare i tuoi gruppi. Questi obiettivi sono meglio serviti da diversi tipi di trame.
1. Si noti che questa discussione presuppone un test t per campioni indipendenti. Questi grafici potrebbero essere usati con un test t di campioni dipendenti, ma potrebbero anche essere fuorvianti in quel contesto (cfr. L' uso delle barre di errore per i mezzi in uno studio all'interno di soggetti è sbagliato? ).