Se si eseguono test statistici indipendenti usando come livello di significatività e il valore nullo si ottiene in ogni caso, se si troverà o meno "significatività" è semplicemente un disegno da una variabile casuale. In particolare, è preso da una distribuzione binomiale con e . Ad esempio, se si prevede di eseguire 3 test utilizzando e (all'insaputa dell'utente) in realtà non vi è alcuna differenza in ciascun caso, quindi esiste una probabilità del 5% di trovare un risultato significativo in ciascun test. In questo modo, il tasso di errore di tipo I viene mantenuto suα p = αKαp = αα = .05 α α α α o α n e wn = kα = .05αper i test singolarmente, ma nell'insieme di 3 test il tasso di errore di tipo I a lungo termine sarà più elevato. Se ritieni che sia significativo raggruppare / pensare insieme a questi 3 test, potresti voler mantenere il tasso di errore di tipo I su per l'insieme nel suo insieme , piuttosto che solo individualmente. Come dovresti procedere? Esistono due approcci incentrati sul passaggio dall'originale (cioè, ) a un nuovo valore (cioè, ):αααoαn e w
Bonferroni: regola usato per valutare "significatività" in modo taleα
αnew=αok
Dunn-Sidak: regola usandoα
αnew=1−(1−αo)1/k
(Si noti che il Dunn-Sidak presume che tutti i test all'interno del set siano indipendenti l'uno dall'altro e potrebbe produrre inflazione di errore di tipo I a livello familiare se tale ipotesi non regge.)
E 'importante notare che, quando effettua le prove, ci sono due tipi di errori che si vuole evitare, tipo I (vale a dire, dicendo che non è una differenza quando non c'è uno) e tipo II (vale a dire, dicendo che ci non è una differenza quando c'è effettivamente). In genere, quando le persone discutono di questo argomento, discutono solo - e sembrano essere consapevoli / interessati solo di - errori di tipo I. Inoltre, le persone spesso trascurano di menzionare che il tasso di errore calcolato sarà valido solo se tutti i valori null sono veri. È banalmente ovvio che non è possibile commettere un errore di tipo I se l'ipotesi nulla è falsa, ma è importante tenere presente questo fatto esplicitamente quando si discute di questo problema.
Lo sollevo perché ci sono implicazioni di questi fatti che sembrano non essere prese in considerazione. In primo luogo, se , l'approccio Dunn-Sidak offrirà una potenza maggiore (sebbene la differenza possa essere piuttosto piccola con una piccola ) e quindi dovrebbe essere sempre preferita (quando applicabile). In secondo luogo, dovrebbe essere utilizzato un approccio " graduale " . Cioè, prova prima l'effetto più grande; se sei convinto che il null non ottenga in quel caso, allora il numero massimo possibile di errori di tipo I è , quindi il test successivo dovrebbe essere adattato di conseguenza, e così via. (Questo spesso rende le persone a disagio e si presenta come la pesca, ma è non èk k - 1 αk>1kk−1pesca, poiché i test sono indipendenti e si intendeva condurli prima di aver mai visto i dati. Questo è solo un modo per regolare modo ottimale.) α
Quanto sopra vale indipendentemente dal modo in cui apprezzi il tipo I rispetto agli errori di tipo II. Tuttavia, a priori non vi è motivo di ritenere che gli errori di tipo I siano peggiori del tipo II (nonostante il fatto che tutti sembrano assumerlo). Invece, questa è una decisione che deve essere presa dal ricercatore e deve essere specifica per quella situazione. Personalmente, se eseguo contrasti ortogonali suggeriti teoricamente, a priori , di solito non aggiusto .α
(E per ribadirlo, poiché è importante, tutto quanto sopra presuppone che i test siano indipendenti. Se i contrasti non sono indipendenti, come quando diversi trattamenti vengono confrontati con lo stesso controllo, un approccio diverso rispetto a Adjustment , come il test di Dunnett, dovrebbe essere usato.) α