In genere puoi continuare a migliorare la tua stima di qualunque parametro tu stia testando con più dati. Arrestare la raccolta dei dati una volta che un test raggiunge un certo grado di significatività semi-arbitraria è un buon modo per fare cattive inferenze. Il fatto che gli analisti possano fraintendere un risultato significativo come segno che il lavoro è svolto è una delle molte conseguenze non intenzionali del framework Neyman-Pearson, in base al quale le persone interpretano i valori p come causa per rifiutare o non rifiutare un null senza riserve a seconda di da quale parte della soglia critica cadono.
Senza considerare le alternative bayesiane al paradigma frequentista (speriamo che lo faccia qualcun altro), gli intervalli di confidenza continuano a essere più istruttivi ben oltre il punto in cui un'ipotesi nulla di base può essere respinta. Supponendo che la raccolta di più dati renderebbe il tuo test di significatività di base ancora più significativo (e non rivelasse che la tua precedente scoperta di significatività era un falso positivo), potresti trovarlo inutile perché rifiuteresti il nulla in entrambi i modi. Tuttavia, in questo scenario, il tuo intervallo di confidenza attorno al parametro in questione continuerebbe a ridursi, migliorando il grado di confidenza con cui puoi descrivere con precisione la tua popolazione di interesse.
Ecco un esempio molto semplice in r - testare l'ipotesi nulla che per una variabile simulata:μ = 0
One Sample t-test
data: rnorm(99)
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-0.377762241 -0.006780574
sample estimates:
mean of x
-0.1922714
Qui ho appena usato t.test(rnorm(99))
e mi è capitato di ottenere un falso positivo (supponendo di aver impostato come scelta accettabile del tasso di errore falso positivo). Se ignoro l'intervallo di confidenza, posso affermare che il mio campione proviene da una popolazione con una media che differisce significativamente da zero. Tecnicamente, l'intervallo di confidenza non contesta neanche questo, ma suggerisce che la media potrebbe essere molto vicina allo zero, o addirittura più lontana da quello che penso sulla base di questo campione. Certo, so che il nulla in realtà è letteralmente vero qui, perché la media della popolazione è impostata su zero, ma raramente si sa con dati reali.α = .05rnorm
L'esecuzione di nuovo come set.seed(8);t.test(rnorm(99,1))
produce una media campione di .91, a p = 5.3E-13 e un intervallo di confidenza al 95% per . Questa volta posso essere abbastanza sicuro che il null sia falso, soprattutto perché l'ho costruito impostando la media dei miei dati simulati su 1.μ = [ .69 , 1.12 ]
Tuttavia, dire che è importante sapere quanto sia diverso da zero; forse una media di .8 sarebbe troppo vicina allo zero perché la differenza abbia importanza. Vedo che non ho abbastanza dati per escludere la possibilità che sia dal mio intervallo di confidenza che da un test t con , che dia un p = .33. La mia media del campione è abbastanza alta da sembrare significativamente diversa da zero secondo questa soglia .8; la raccolta di più dati può aiutare a migliorare la mia sicurezza che la differenza sia almeno così grande e non solo banalmente maggiore di zero.μ = .8mu=.8
Dato che sto "raccogliendo dati" mediante simulazione, posso essere un po 'irrealistico e aumentare le dimensioni del mio campione di un ordine di grandezza. L'esecuzione set.seed(8);t.test(rnorm(999,1),mu=.8)
rivela che ulteriori dati continuano a essere utili dopo aver rifiutato l'ipotesi nulla di in questo scenario, perché ora posso rifiutare un valore null di con il mio campione più ampio. L'intervallo di confidenza di suggerisce anche che avrei potuto respingere le ipotesi nulle fino a se avessi deciso di farlo inizialmente.μ = .8 μ = [ .90 , 1.02 ] μ = .89μ = 0μ = .8μ = [ .90 , 1.02 ]μ = .89
Non posso rivedere la mia ipotesi nulla dopo il fatto, ma senza raccogliere nuovi dati per testare un'ipotesi ancora più forte dopo questo risultato, posso dire con il 95% di fiducia che replicare il mio "studio" mi permetterebbe di rifiutare un . Ancora una volta, solo perché posso simularlo facilmente, eseguirò nuovamente il codice come : dimostrando che la mia fiducia non era fuori luogo.H0: μ = .9set.seed(9);t.test(rnorm(999,1),mu=.9)
Testare ipotesi null sempre più stringenti, o meglio ancora, semplicemente concentrarsi sulla riduzione degli intervalli di confidenza è solo un modo per procedere. Naturalmente, la maggior parte degli studi che respingono le ipotesi nulle pone le basi per altri studi che si basano sull'ipotesi alternativa. Ad esempio, se stavo testando un'ipotesi alternativa secondo cui una correlazione è maggiore di zero, potrei testare mediatori o moderatori in uno studio di follow-up successivo ... e mentre ci sono, vorrei sicuramente assicurarmi Potrei replicare il risultato originale.
Un altro approccio da considerare è il test di equivalenza . Se vuoi concludere che un parametro rientra in un certo intervallo di valori possibili, non solo diverso da un singolo valore, puoi specificare quell'intervallo di valori in cui vuoi che il parametro si trovi in base alla tua ipotesi alternativa convenzionale e testarlo contro un diverso insieme di ipotesi nulle che insieme rappresentano la possibilità che il parametro si trovi al di fuori di tale intervallo. Quest'ultima possibilità potrebbe essere molto simile a ciò che avevi in mente quando hai scritto:
Abbiamo "alcune prove" affinché l'alternativa sia vera, ma non possiamo trarre tale conclusione. Se voglio davvero trarre questa conclusione in modo conclusivo ...
Ecco un esempio usando dati simili a quelli sopra (usare set.seed(8)
, rnorm(99)
è lo stesso di rnorm(99,1)-1
, quindi la media del campione è -.09). Supponiamo di voler testare l'ipotesi nulla di due test t unilaterali che sostengono congiuntamente che la media del campione non è compresa tra -.2 e .2. Ciò corrisponde vagamente alla premessa dell'esempio precedente, secondo la quale volevo verificare se . La differenza è che ho spostato i miei dati in basso di 1, e ora due test unilaterali dell'ipotesi alternativa che . Ecco come appare:- .2 ≤ μ ≤ .2μ = .8- .2 ≤ μ ≤ .2
require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)
tost
imposta il livello di confidenza dell'intervallo al 90%, quindi l'intervallo di confidenza attorno alla media campionaria di -.09 è e p = .17. Tuttavia, eseguendolo di nuovo con (e lo stesso seme), l'intervallo di confidenza del 90% si riduce a , che rientra nell'intervallo di equivalenza specificato nell'ipotesi nulla con p = 4.55E-07.μ = [ - .09 , .01 ]μ = [ - .27 , .09 ]rnorm(999)
μ = [ - .09 , .01 ]
Penso ancora che l'intervallo di confidenza sia più interessante del risultato del test di equivalenza. Rappresenta ciò che i dati suggeriscono che la media della popolazione è più specificamente dell'ipotesi alternativa e suggerisce che posso essere ragionevolmente fiducioso che si trova in un intervallo ancora più piccolo di quanto ho specificato nell'ipotesi alternativa. Per dimostrare, abuserò ancora una volta dei miei poteri irrealistici di simulazione e "replicherò" usando set.seed(7);tost(rnorm(999),epsilon=.09345092)
: abbastanza sicuro, p = .002.