In risposta a un corpus crescente di statistici e ricercatori che criticano l'utilità dei test di ipotesi nulla (NHT) per la scienza come sforzo cumulativo, la Task Force sull'inferenza statistica dell'American Psychological Association ha evitato il divieto assoluto di NHT, ma ha invece suggerito che i ricercatori riporta le dimensioni dell'effetto oltre ai valori p derivati da NHT.
Tuttavia, le dimensioni degli effetti non si accumulano facilmente tra gli studi. Gli approcci meta-analitici possono accumulare distribuzioni di dimensioni dell'effetto, ma le dimensioni dell'effetto sono in genere calcolate come un rapporto tra grandezza dell'effetto grezzo e "rumore" inspiegabile nei dati di un determinato esperimento, il che significa che la distribuzione delle dimensioni dell'effetto è influenzata non solo dal variabilità nella grandezza grezza dell'effetto tra gli studi, ma anche variabilità nella manifestazione del rumore tra gli studi.
Al contrario, una misura alternativa della forza dell'effetto, i rapporti di probabilità, consentono sia l'interpretazione intuitiva su base studio per studio, sia possono essere facilmente aggregati tra gli studi per la meta-analisi. All'interno di ogni studio, la probabilità rappresenta il peso dell'evidenza per un modello contenente un determinato effetto rispetto a un modello che non contiene l'effetto e potrebbe in genere essere riportato come, ad esempio, "Calcolo di un rapporto di probabilità per l'effetto di X ha rivelato 8 volte più prove per l'effetto che per il suo rispettivo null ". Inoltre, il rapporto di verosimiglianza consente anche una rappresentazione intuitiva della forza dei risultati nulli nella misura in cui i rapporti di verosimiglianza inferiori a 1 rappresentano scenari in cui il nullo è favorito e l'assunzione del reciproco di questo valore rappresenta il peso dell'evidenza per il nullo sull'effetto. In particolare, il rapporto di verosimiglianza è rappresentato matematicamente come il rapporto tra varianze inspiegabili dei due modelli, che differiscono solo per la varianza spiegata dall'effetto e quindi non è un enorme allontanamento concettuale da una dimensione dell'effetto. D'altra parte, il calcolo di un rapporto di probabilità meta-analitico, che rappresenta il peso dell'evidenza per un effetto attraverso gli studi, è semplicemente una questione di prendere il prodotto dei rapporti di probabilità tra gli studi.
Pertanto, sostengo che per la scienza che cerca di stabilire il grado di evidenza grossolana a favore di un effetto / modello, i rapporti di probabilità sono la strada da percorrere.
Esistono casi più sfumati in cui i modelli sono differenziabili solo nella dimensione specifica di un effetto, nel qual caso si potrebbe preferire una sorta di rappresentazione dell'intervallo su cui riteniamo che i dati siano coerenti con i valori dei parametri dell'effetto. In effetti, la task force APA raccomanda anche di riferire intervalli di confidenza, che possono essere utilizzati a tal fine, ma sospetto che anche questo sia un approccio sconsiderato.
Gli intervalli di confidenza sono spesso mal interpretati (sia da studenti che da ricercatori ). Temo inoltre che la loro capacità di utilizzo in NHT (mediante valutazione dell'inclusione di zero all'interno dell'IC) servirà solo a ritardare ulteriormente l'estinzione di NHT come pratica inferenziale.
Invece, quando le teorie sono differenziabili solo per la dimensione degli effetti, suggerisco che l'approccio bayesiano sarebbe più appropriato, in cui la distribuzione precedente di ciascun effetto è definita separatamente da ciascun modello e le comparazioni posteriori risultanti vengono confrontate.
Questo approccio, che sostituisce i valori di p, le dimensioni degli effetti e gli intervalli di confidenza con rapporti di probabilità e, se necessario, confronto del modello bayesiano, sembra sufficiente? Manca qualche caratteristica inferenziale necessaria fornita dalle alternative qui diffamate?