Questo articolo " The Odds, continuamente aggiornato" dal NY Times è successo per attirare la mia attenzione. Per essere brevi, afferma che
[Le statistiche bayesiane] si stanno rivelando particolarmente utili per affrontare problemi complessi, comprese ricerche come quella che la Guardia Costiera ha usato nel 2013 per trovare il pescatore scomparso, John Aldridge (anche se non finora nella caccia al volo 370 della Malaysia Airlines). ...... le statistiche bayesiane si stanno diffondendo in tutto, dalla fisica alla ricerca sul cancro, dall'ecologia alla psicologia ...
Nell'articolo, ci sono anche alcune critiche sul valore p del frequentista, ad esempio:
I risultati sono generalmente considerati "statisticamente significativi" se il valore p è inferiore al 5 percento. Ma c'è un pericolo in questa tradizione, ha affermato Andrew Gelman, professore di statistica alla Columbia. Anche se gli scienziati hanno sempre eseguito correttamente i calcoli - e non lo fanno, sostiene - accettare tutto con un valore p del 5 percento significa che uno su 20 risultati “statisticamente significativi” non sono altro che rumore casuale.
Oltre a ciò, forse il documento più famoso che critica il p-value è questo - "Metodo scientifico: errori statistici" di Regina Nuzzo di Nature , in cui sono state discusse molte questioni scientifiche sollevate dall'approccio al p-value, come i problemi di riproducibilità, hacking p-value, ecc.
I valori di P, il "gold standard" della validità statistica, non sono così affidabili come molti scienziati ritengono. ...... Forse il peggior errore è il tipo di autoinganno per cui lo psicologo Uri Simonsohn dell'Università della Pennsylvania e i suoi colleghi hanno reso popolare il termine P-hacking; è anche noto come dragaggio dei dati, ficcanaso, pesca, inseguimento di significato e doppia immersione. "P-hacking", afferma Simonsohn, "sta provando più cose fino a ottenere il risultato desiderato" - anche inconsciamente. ...... "Quel risultato sembra essere stato ottenuto tramite p-hacking, gli autori hanno abbandonato una delle condizioni in modo che il valore p complessivo fosse inferiore a 0,05" e "È una p-hacker, monitora sempre i dati mentre vengono raccolti. "
Un'altra cosa è una trama interessante come segue da qui , con il commento sulla trama:
Non importa quanto piccolo possa essere il tuo effetto, puoi sempre fare il duro lavoro di raccolta dei dati per superare la soglia di p <.05. Finché l'effetto che stai studiando non è inesistente, i valori p misurano semplicemente lo sforzo che hai fatto nella raccolta dei dati.
Con tutto quanto sopra, le mie domande sono:
Cosa significa esattamente l'argomentazione di Andrew Gelman, nella citazione del secondo blocco? Perché ha interpretato il p-value del 5 percento come "un risultato statisticamente significativo su 20 sta notando ma rumore casuale"? Non sono convinto poiché per me il valore p viene utilizzato per dedurre un singolo studio. Il suo punto sembra legato a più test.
Aggiornamento: controlla il blog di Andrew Gelman su questo: No, non l'ho detto! (Crediti a @Scortchi, @whuber).
Date le critiche sul valore p, e anche dato che ci sono molti criteri informativi, come AIC, BIC, di Mallow per valutare la significatività di un modello (quindi variabili), non dovremmo usare affatto il valore p per la selezione delle variabili ma usi quei criteri di selezione del modello?
- Esistono buone indicazioni pratiche sull'uso del valore p per analisi statistiche che potrebbero portare a risultati di ricerca più affidabili?
Il framework di modellazione bayesiana sarebbe un modo migliore di perseguire, come sostengono alcuni statistici? In particolare, l'approccio bayesiano avrebbe maggiori probabilità di risolvere la ricerca errata o la manipolazione dei problemi relativi ai dati? Anche qui non sono convinto poiché il priore è molto soggettivo nell'approccio bayesiano. Esistono studi pratici e ben noti che dimostrano che l'approccio bayesiano è migliore del valore p del frequentista, o almeno in alcuni casi particolari?
Aggiornamento: sarei particolarmente interessato a sapere se ci sono casi in cui l'approccio bayesiano è più affidabile dell'approccio con valore p del frequentista. Con "affidabile" intendo che l'approccio bayesiano ha meno probabilità di manipolare i dati per ottenere i risultati desiderati. Eventuali suggerimenti?
Aggiornamento del 09/06/2015
Ho appena notato la notizia e ho pensato che sarebbe bello metterla qui per la discussione.
Il diario di psicologia vieta i valori di P.
Un controverso test statistico ha finalmente raggiunto la fine, almeno in un diario. All'inizio di questo mese, gli editori di Basic and Applied Social Psychology (BASP) hanno annunciato che la rivista non avrebbe più pubblicato articoli contenenti valori di P perché le statistiche erano troppo spesso utilizzate per supportare la ricerca di qualità inferiore.
Insieme a un recente articolo, "Il valore volubile di P genera risultati irreprensibili" dalla natura , sul valore di P.
Aggiornamento 5/8/2016
A marzo, l'American Statistical Association (ASA) ha rilasciato dichiarazioni sulla significatività statistica e sui valori p, ".... La dichiarazione ASA ha lo scopo di guidare la ricerca in un'era" post p <0,05 "."
Questa affermazione contiene 6 principi che affrontano l'abuso del valore p:
- I valori P possono indicare l'incompatibilità dei dati con un modello statistico specificato.
- I valori P non misurano la probabilità che l'ipotesi studiata sia vera o la probabilità che i dati siano stati prodotti solo per caso.
- Le conclusioni scientifiche e le decisioni commerciali o politiche non dovrebbero basarsi solo sul fatto che un valore p superi una soglia specifica.
- Una corretta deduzione richiede piena trasparenza e trasparenza.
- Un valore p, o significato statistico, non misura la dimensione di un effetto o l'importanza di un risultato.
- Di per sé, un valore di p non fornisce una buona misura di prove riguardanti un modello o un'ipotesi.
Dettagli: "L'affermazione dell'ASA sui valori p: contesto, processo e scopo" .