La regolazione Bonferroni fornirà sempre un forte controllo del tasso di errore familiare. Ciò significa che, qualunque sia la natura e il numero dei test o le relazioni tra di essi, se i loro presupposti sono soddisfatti, si assicurerà che la probabilità di avere anche solo un risultato significativo errato tra tutti i test sia al massimo α , il livello di errore originale . È quindi sempre disponibile .
Se sia appropriato usarlo (al contrario di un altro metodo o forse nessun aggiustamento) dipende dai tuoi obiettivi, dagli standard della tua disciplina e dalla disponibilità di metodi migliori per la tua situazione specifica. Per lo meno, dovresti probabilmente considerare il metodo Holm-Bonferroni, che è altrettanto generale ma meno conservativo.
Per quanto riguarda il tuo esempio, dal momento che si sta eseguendo diversi test, si sta aumentando il tasso di errore saggio-famiglia (la probabilità di rifiutare almeno un ipotesi nulla erroneamente). Se si esegue un solo test su ogni metà, sarebbero possibili molte regolazioni, incluso il metodo o i metodi di Hommel che controllano il tasso di rilevamento falso (che è diverso dal tasso di errore familiare). Se si esegue un test sull'intero set di dati seguito da numerosi sotto-test, i test non sono più indipendenti, quindi alcuni metodi non sono più appropriati. Come ho detto prima, Bonferroni è comunque sempre disponibile e garantito per funzionare come pubblicizzato (ma anche per essere molto conservatore ...).
Potresti anche semplicemente ignorare l'intero problema. Formalmente, il tasso di errore per la famiglia è più alto, ma con solo due test non è ancora così male. Potresti anche iniziare con un test sull'intero set di dati, trattato come risultato principale, seguito da sotto-test per diversi gruppi, non corretti perché intesi come esiti secondari o ipotesi accessorie.
Se si considerano molte variabili demografiche in quel modo (diversamente dalla semplice pianificazione di testare le differenze di genere sin dall'inizio o forse un approccio di modellizzazione più sistematico), il problema diventa più serio con un rischio significativo di "dragaggio dei dati" (una differenza viene fuori per caso, permettendoti di salvare un esperimento inconcludente con una bella storia sulla variabile demografica da avviare mentre in realtà non è successo nulla) e dovresti assolutamente prendere in considerazione una qualche forma di aggiustamento per più test. La logica rimane la stessa con X diverse ipotesi (testare due volte le ipotesi X - una su ogni metà del set di dati - comporta un tasso di errore più elevato in termini di famiglia rispetto al test delle ipotesi X una sola volta e probabilmente dovresti adattarlo).