Come sono tutte le versioni dello stesso metodo statistico di base?
Come sono tutte le versioni dello stesso metodo statistico di base?
Risposte:
Considera che possono essere tutti scritti come un'equazione di regressione (forse con interpretazioni leggermente diverse rispetto alle loro forme tradizionali).
Regressione:
test t:
ANOVA:
La regressione prototipica viene concettualizzata con come variabile continua. Tuttavia, l'unica ipotesi che viene effettivamente fatta su X è che si tratta di un vettore di costanti note. Potrebbe essere una variabile continua, ma potrebbe anche essere un codice fittizio (ovvero un vettore di 0 's & 1 ' che indica se un'osservazione è un membro di un gruppo indicato, ad esempio un gruppo di trattamento). Pertanto, nella seconda equazione, X potrebbe essere un codice così fittizio e il valore p sarebbe lo stesso di un test t nella sua forma più tradizionale.
Il significato dei beta sarebbe diverso qui, però. In questo caso, sarebbe la media del gruppo di controllo (per cui le voci nella variabile fittizia sarebbero 0 's) e β 1 sarebbe la differenza tra la media del gruppo di trattamento e la media del controllo gruppo.
Ora, ricorda che è perfettamente ragionevole avere / eseguire un ANOVA con solo due gruppi (anche se un test t sarebbe più comune) e tutti e tre sono collegati. Se preferisci vedere come funzionerebbe se avessi un ANOVA con 3 gruppi; sarebbe: Nota che quando hai g gruppi, hai g - 1 codici fittizi per rappresentarli. Il gruppo di riferimento (in genere il gruppo di controllo) è indicato con 0 pertutti icodici fittizi (in questo caso, sia il codice fittizio 1 che il codice fittizio 2). In questo caso, non vorrai interpretare i valori p dei test t per questi beta che hanno un output statistico standard - indicano solo se il gruppo indicato differisce dal gruppo di controlloquando valutato in isolamento
Alla luce dei commenti di @ whuber di seguito, questi possono anche essere rappresentati tramite equazioni di matrice:
Rappresentati in questo modo, Y & ε sono vettori di lunghezza N e β è un vettore di lunghezza p + 1 . X ora è una matrice con N righe e ( p + 1 ) colonne. In una regressione prototipo avete p continuo X variabili e l'intercetta. Quindi, la tua X
Se stai rappresentando un ANOVA con gruppi in questo modo, ricorda che avresti g - 1 variabili fittizie che indicano i gruppi, con il gruppo di riferimento indicato da un'osservazione con 0 's in ciascuna variabile fittizia. Come sopra, avresti comunque un'intercettazione. Pertanto, p = g - 1 .
Possono essere tutti scritti come casi particolari del modello lineare generale.
Un modello ANOVA è fondamentalmente solo un modello di regressione in cui i livelli dei fattori sono rappresentati da variabili fittizie (o indicatori ) .
> t.test(extra ~ group, var.equal=TRUE, data = sleep)
Two Sample t-test
data: extra by group
t = -1.8608, df = 18, p-value = 0.07919
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.363874 0.203874
sample estimates:
mean in group 1 mean in group 2
0.75 2.33
Nota il valore p di 0,079 sopra. Ecco il modo unico anova:
> summary(aov(extra~group,sleep))
Df Sum Sq Mean Sq F value Pr(>F)
group 1 12.48 12.482 3.463 0.0792
Residuals 18 64.89 3.605
Ora per la regressione:
> summary(lm(extra ~ group, data = sleep))
(alcuni output rimossi)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.7500 0.6004 1.249 0.2276
group2 1.5800 0.8491 1.861 0.0792 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared: 0.1613, Adjusted R-squared: 0.1147
F-statistic: 3.463 on 1 and 18 DF, p-value: 0.07919
Confronta il valore p nella riga 'group2' e anche il valore p per il test F nell'ultima riga. Per un test a due code, questi sono gli stessi ed entrambi corrispondono al risultato del test t.
Inoltre, il coefficiente di "gruppo2" rappresenta la differenza nelle medie per i due gruppi.
Questa risposta che ho pubblicato in precedenza è in qualche modo pertinente, ma questa domanda è in qualche modo diversa.
Potresti voler pensare alle differenze e alle somiglianze tra i seguenti modelli lineari:
Anova è simile a un test t per l'uguaglianza dei mezzi presupponendo varianze sconosciute ma uguali tra i trattamenti. Questo perché in ANOVA MSE è identico alla varianza aggregata utilizzata nel test t. Esistono altre versioni di t-test come una per varianze non uguali e t-test in coppia. Da questo punto di vista, il test t può essere più flessibile.