Supponiamo di avere un esperimento con due o più fattori. Viene costruito un ANOVA generale, e quindi seguiamo due o più serie di test post hoc , diciamo confronti multipli. La mia domanda è su quanto grandi --- e quante --- famiglie dovrebbero essere usate come base per aggiustamenti di molteplicità di questi test post hoc .
Un esempio è il set di dati di warp-break dal libro di Tukey sull'EDA. Esistono due fattori: wool
(a due livelli) e tension
(a tre livelli). La tabella ANOVA è:
Source Df Sum Sq Mean Sq F value Pr(>F)
wool 1 450.7 450.67 3.7653 0.0582130
tension 2 2034.3 1017.13 8.4980 0.0006926
wool:tension 2 1002.8 501.39 4.1891 0.0210442
Residuals 48 5745.1 119.69
Chiaramente, l'interazione è necessaria nel modello. Quindi decidiamo di fare confronti tra i livelli di ciascun fattore, tenendo fisso l'altro fattore. I risultati sono di seguito, con alcune annotazioni a cui fare riferimento in seguito:
*** Pairwise comparisons of tension for each wool ***
*** All combined: Family T ***
wool = A: *** Family T|A ***
contrast estimate SE df t.ratio
L - M 20.5555556 5.157299 48 3.986
L - H 20.0000000 5.157299 48 3.878
M - H -0.5555556 5.157299 48 -0.108
wool = B: *** Family T|B ***
contrast estimate SE df t.ratio
L - M -0.5555556 5.157299 48 -0.108
L - H 9.4444444 5.157299 48 1.831
M - H 10.0000000 5.157299 48 1.939
*** Comparison of wool for each tension ***
*** All combined: Family W ***
tension = L: *** Family W|L ***
contrast estimate SE df t.ratio
A - B 16.333333 5.157299 48 3.167
tension = M: *** Family W|M ***
contrast estimate SE df t.ratio
A - B -4.777778 5.157299 48 -0.926
tension = H: *** Family W|H ***
contrast estimate SE df t.ratio
A - B 5.777778 5.157299 48 1.120
Penso che ci siano diverse pratiche là fuori, e mi chiedo quali siano le più comuni e quali argomenti le persone sostengano a favore o contro ogni approccio. Nel calcolare i valori corretti , dovremmo fare aggiustamenti di molteplicità per ...
- ciascuna delle cinque famiglie più piccole (T | A, T | B, ..., W | H) separatamente? (Nota: le ultime 3 famiglie hanno un solo test quindi non ci sarebbe alcuna regolazione della molteplicità per quelli)
- ciascuna delle famiglie più numerose (T, con 6 test e W, con 3 test) separatamente?
- tutti test considerati come una grande famiglia?
Sono interessato sia a ciò che la gente di solito fa (anche se non ci ha pensato molto) sia al perché (se lo ha fatto). Un paio di cose che potrei menzionare sono:
- Se avessimo fatto un esperimento un po 'più piccolo in cui tutti i test sono meno potenti, è possibile che l'interazione non sarebbe stata significativa, portando a un numero molto più piccolo di confronti post hoc di soli mezzi marginali. Inoltre, i mezzi marginali potrebbero avere SE più piccoli rispetto ai mezzi cellulari nell'esperimento più grande. Se, inoltre, l'adeguamento della molteplicità è meno prudente, potremmo avere risultati più "significativi" con meno dati di quanti ne avremmo con più dati.
Interessato a vedere cosa hanno da dire le persone ...