L'equivalenza non è mai qualcosa che possiamo testare . Pensa all'ipotesi: vs . La teoria NHST ci dice che, sotto lo zero, possiamo scegliere qualsiasi cosa sotto che si adatta meglio ai dati. Ciò significa che possiamo quasi sempre avvicinarci arbitrariamente alla distribuzione. Ad esempio, se voglio provare , il modello di probabilità che consente distribuzioni separate di e sarà sempre più probabile sotto il null, una violazione delle ipotesi di test critici. Anche se il campioneH 1 : f x = f y H 0 f x ~ N (0,1) f x f y X=Y f y ≈ f xH0:fx≠fyH1:fx=fyH0fx∼N(0,1)f^xf^yX=Yallo stesso modo, posso ottenere un rapporto di probabilità che è arbitrariamente vicino a 1 con .fy≈fx
Se si conosce un modello di probabilità adatto per i dati, è possibile utilizzare un criterio di informazioni penalizzate per classificare i modelli alternativi. Un modo è usare i BIC dei due modelli di probabilità (quello stimato sotto e . Ho usato un modello di probabilità normale, ma puoi facilmente ottenere un BIC da qualsiasi tipo della procedura di massima verosimiglianza, sia a mano che usando il GLM. Questo post Stackoverflow diventa estremamente grintoso per adattarsi alle distribuzioni. Un esempio di ciò è qui:H 1H0H1
set.seed(123)
p <- replicate(1000, { ## generate data under the null
x <- rnorm(100)
g <- sample(0:1, 100, replace=T)
BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)
dà
> mean(p)
[1] 0.034
p qui è la proporzione di volte in cui il BIC del modello null (modelli separati) è migliore (inferiore) rispetto al modello alternativo (modello equivalente). Ciò è notevolmente vicino al livello nominale di 0,05 test statistici.
D'altra parte se prendiamo:
set.seed(123)
p <- replicate(1000, { ## generate data under the null
x <- rnorm(100)
g <- sample(0:1, 100, replace=T)
x <- x + 0.4*g
BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)
dà:
> mean(p)
[1] 0.437
Come nel caso dell'NHST, esistono sottili problemi di potenza e tassi di errore falsi positivi che dovrebbero essere esplorati con la simulazione prima di trarre conclusioni definitive.
Penso che un metodo simile (forse più generale) stia usando le statistiche bayesiane per confrontare il posteriore stimato in entrambi i modelli di probabilità.