L'utilità delle dimensioni dell'effetto rispetto ai valori di p (così come ad altre metriche di inferenza statistica) è regolarmente discussa nel mio campo — la psicologia — e il dibattito è attualmente più “caldo”, del normale per ragioni che sono rilevanti per la tua domanda. E anche se sono sicuro che la psicologia non è necessariamente il campo scientifico più statisticamente sofisticato, ha prontamente discusso, studiato e, a volte, dimostrato, i limiti di vari approcci all'inferenza statistica, o almeno come sono limitati dall'uso umano. Le risposte già pubblicate includono buoni spunti, ma nel caso in cui tu sia interessato a un elenco più ampio (e riferimenti) dei motivi a favore e contro ciascuno, vedi sotto.
Perché i valori di p non sono desiderabili?
- Come osserva Darren James (e la sua simulazione mostra), i valori di p dipendono in larga misura dal numero di osservazioni che hai (vedi Kirk, 2003)
- Come osserva Jon, i valori di p rappresentano la probabilità condizionale di osservare i dati come estremi o più estremi dato che l'ipotesi nulla è vera. Poiché la maggior parte dei ricercatori preferirebbe avere probabilità dell'ipotesi della ricerca e / o dell'ipotesi nulla, i valori p non parlano alle probabilità a cui i ricercatori sono più interessati (cioè dell'ipotesi nulla o della ricerca, vedi Dienes, 2008)
- Molti che usano valori p non capiscono cosa significano / non significano (Schmidt & Hunter, 1997). Il riferimento di Michael Lew al documento di Gelman e Stern (2006) sottolinea ulteriormente i malintesi dei ricercatori su ciò che si può (o non si può) interpretare dai valori di p. E comedimostrauna storia relativamente recente su FiveThirtyEight , questo continua ad essere il caso.
- i valori di p non sono grandi nel prevedere i successivi valori di p (Cumming, 2008)
- i valori di p sono spesso segnalati erroneamente (più spesso gonfiando il significato) e la segnalazione errata è collegata a una riluttanza a condividere i dati (Bakker & Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011)
- i valori di p possono essere (e storicamente, sono stati) attivamente distorti attraverso la flessibilità analitica, e quindi non sono affidabili (John et al., 2012; Simmons et al., 2011)
- i valori di p sono sproporzionatamente significativi, poiché i sistemi accademici sembrano premiare gli scienziati per il significato statistico sull'accuratezza scientifica (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)
Perché sono desiderabili le dimensioni degli effetti?
Si noti che sto interpretando la tua domanda facendo riferimento in modo specifico alle dimensioni degli effetti standardizzate, poiché dici che consentono ai ricercatori di trasformare i loro risultati in "metrica comune".
- Come indicano Jon e Darren James, le dimensioni degli effetti indicano l'entità di un effetto, indipendentemente dal numero di osservazioni (American Psychological Association 2010; Cumming, 2014) rispetto a prendere decisioni dicotomiche sulla presenza o meno di un effetto.
- Le dimensioni dell'effetto sono preziose perché rendono possibili le meta-analisi e la meta-analisi stimola la conoscenza cumulativa (Borenstein et al., 2009; Chan & Arvey, 2012)
- Le dimensioni dell'effetto aiutano a facilitare la pianificazione delle dimensioni del campione tramite un'analisi di potenza a priori e quindi un'allocazione efficiente delle risorse nella ricerca (Cohen, 1992)
Perché sono desiderabili i valori p?
Sebbene siano meno frequentemente sposati, i valori p hanno un numero di vantaggi. Alcuni sono noti e di lunga data, mentre altri sono relativamente nuovi.
I valori P forniscono un indice comodo e familiare della forza dell'evidenza rispetto all'ipotesi nulla del modello statistico.
Se calcolati correttamente, i valori p forniscono un mezzo per prendere decisioni dicotomiche (che a volte sono necessarie), e i valori p aiutano a mantenere i tassi di errore falsi positivi a lungo termine a un livello accettabile (Dienes, 2008; Sakaluk, 2016) [It non è strettamente corretto affermare che i valori P sono richiesti per le decisioni dicotomiche. In effetti sono ampiamente utilizzati in questo modo, ma Neyman e Pearson hanno utilizzato "regioni critiche" nello spazio statistico del test a tale scopo. Vedi questa domanda e le sue risposte]
- i valori p possono essere utilizzati per facilitare una pianificazione delle dimensioni del campione costantemente efficiente (non solo un'analisi di potenza una tantum) (Lakens, 2014)
- i valori p possono essere utilizzati per facilitare la meta-analisi e valutare il valore probatorio (Simonsohn et al., 2014a; Simonsohn et al., 2014b). Vedi questo post sul blog per una discussione accessibile su come le distribuzioni di valori p possono essere utilizzate in questo modo, così come questo post CV per una discussione correlata.
- i valori p possono essere usati in modo forense per determinare se potrebbero essere state utilizzate pratiche di ricerca discutibili e come potrebbero essere risultati replicabili (Schimmack, 2014; vedi anche l'app di Schönbrodt, 2015)
Perché le dimensioni degli effetti sono indesiderabili (o sopravvalutate)?
Forse la posizione più controintuitiva per molti; perché la segnalazione di dimensioni di effetto standardizzate sarebbe indesiderabile o quanto meno sopravvalutata?
- In alcuni casi, le dimensioni degli effetti standardizzati non sono tutto ciò che sono state create (ad esempio, Groenlandia, Schlesselman e Criqui, 1986). Baguely (2009), in particolare, ha una bella descrizione di alcuni dei motivi per cui le dimensioni di effetti grezzi / non standardizzati potrebbero essere più desiderabili.
- Nonostante la loro utilità per l'analisi della potenza a priori, le dimensioni degli effetti non vengono effettivamente utilizzate in modo affidabile per facilitare un'efficiente pianificazione delle dimensioni del campione (Maxwell, 2004)
- Anche quando le dimensioni degli effetti vengono utilizzate nella pianificazione delle dimensioni del campione, poiché vengono gonfiate tramite il bias della pubblicazione (Rosenthal, 1979) , le dimensioni degli effetti pubblicate sono di utilità discutibile per una pianificazione affidabile delle dimensioni del campione (Simonsohn, 2013)
- Le stime sulla dimensione dell'effetto possono essere — e sono state — calcolate sistematicamente in modo errato nel software statistico (Levine & Hullet, 2002)
- Le dimensioni degli effetti vengono erroneamente estratte (e probabilmente dichiarate erroneamente), il che mina la credibilità delle meta-analisi (Gøtzsche et al., 2007)
- Infine, la correzione della distorsione della pubblicazione nelle dimensioni dell'effetto rimane inefficace (vedi Carter et al., 2017), che, se ritieni che esista una distorsione della pubblicazione, rende le meta-analisi meno impattanti.
Sommario
Facendo eco al punto sollevato da Michael Lew, i valori di p e le dimensioni dell'effetto sono solo due elementi di prova statistica; ce ne sono anche altri che vale la pena considerare. Ma come i valori p e le dimensioni degli effetti, anche altre metriche di valore probatorio hanno problemi condivisi e unici. I ricercatori di solito applicano erroneamente e interpretano erroneamente gli intervalli di confidenza (ad es. Hoekstra et al., 2014; Morey et al., 2016), ad esempio, e il risultato delle analisi bayesiane può essere distorto dai ricercatori, proprio come quando si usano i valori p (ad es. Simonsohn , 2014).
Tutte le metriche delle prove hanno vinto e tutti devono avere dei premi.
Riferimenti
Associazione Americana di Psicologia. (2010). Manuale di pubblicazione dell'American Psychological Association (6a edizione). Washington, DC: American Psychological Association.
Baguley, T. (2009). Dimensione dell'effetto standardizzata o semplice: cosa dovrebbe essere segnalato? British Journal of Psychology, 100 (3), 603-617.
Bakker, M., & Wicherts, JM (2011). La (errata) segnalazione di risultati statistici su riviste di psicologia. Metodi di ricerca comportamentale, 43 (3), 666-678.
Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009). Introduzione alla meta-analisi. West Sussex, Regno Unito: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM e Hilgard, J. (2017, 12 agosto). Correzione del pregiudizio in psicologia: un confronto tra metodi meta-analitici. Estratto da osf.io/preprints/psyarxiv/9h3nu
Chan, ME e Arvey, RD (2012). Meta-analisi e sviluppo della conoscenza. Perspectives on Psychological Science, 7 (1), 79-92.
Cohen, J. (1992). Un primer di potenza. Bollettino psicologico, 112 (1), 155-159.
Cumming, G. (2008). Replicazione e intervalli p: i valori p predicono il futuro solo vagamente, ma gli intervalli di confidenza fanno molto meglio. Perspectives on Psychological Science, 3, 286– 300.
Dienes, D. (2008). Comprendere la psicologia come scienza: un'introduzione all'inferenza scientifica e statistica. New York, NY: Palgrave MacMillan.
Fanelli, D. (2010). I risultati "positivi" aumentano nella gerarchia delle scienze. PloS one, 5 (4), e10068.
Gelman, A., & Stern, H. (2006). La differenza tra "significativo" e "non significativo" non è di per sé statisticamente significativa. The American Statistician, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K., & Tendal, B. (2007). Errori di estrazione dei dati nelle meta-analisi che utilizzano differenze medie standardizzate. JAMA, 298 (4), 430-437.
Groenlandia, S., Schlesselman, JJ e Criqui, MH (1986). L'errore di utilizzare coefficienti di regressione standardizzati e correlazioni come misure di effetto. American Journal of Epidemiology, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN e Wagenmakers, EJ (2014). Robusta interpretazione errata degli intervalli di confidenza. Bollettino psicologico e revisione, 21 (5), 1157-1164.
John, LK, Loewenstein, G., & Prelec, D. (2012). Misurare la prevalenza di pratiche di ricerca discutibili con incentivi per dire la verità. PsychologicalSsence, 23 (5), 524-532.
Kirk, RE (2003). L'importanza dell'entità dell'effetto. In SF Davis (Ed.), Manuale dei metodi di ricerca in psicologia sperimentale (pagg. 83-105). Malden, MA: Blackwell.
Lakens, D. (2014). Esecuzione efficiente di studi ad alta potenza con analisi sequenziali. European Journal of Social Psychology, 44 (7), 701-710.
Levine, TR e Hullett, CR (2002). Eta al quadrato, eta parziale al quadrato e dichiarazione errata delle dimensioni dell'effetto nella ricerca sulla comunicazione. Human Communication Research, 28 (4), 612-625.
Maxwell, SE (2004). La persistenza di studi insufficienti nella ricerca psicologica: cause, conseguenze e rimedi. Metodi psicologici, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD, & Wagenmakers, EJ (2016). L'errore di riporre fiducia negli intervalli di confidenza. Bollettino psicologico e revisione, 23 (1), 103-123.
Nosek, BA, Spies, JR, & Motyl, M. (2012). Utopia scientifica: II. Ristrutturazione di incentivi e pratiche per promuovere la verità sulla pubblicabilità. Perspectives on Psychological Science, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S., & Wicherts, JM (2016). La prevalenza di errori di segnalazione statistica in psicologia (1985-2013). Metodi di ricerca comportamentale, 48 (4), 1205-1226.
Rosenthal, R. (1979). Il problema del cassetto file e la tolleranza per risultati nulli. Bollettino psicologico, 86 (3), 638-641.
Sakaluk, JK (2016). Esplorare piccoli, confermando grandi: un sistema alternativo alle nuove statistiche per far avanzare la ricerca psicologica cumulativa e replicabile. Journal of Experimental Social Psychology, 66, 47-54.
Schimmack, U. (2014). Quantificare l'integrità della ricerca statistica: l'indice di replicabilità. Estratto da http://www.r-index.org
Schmidt, FL e Hunter, JE (1997). Otto obiezioni comuni ma false alla sospensione dei test di significatività nell'analisi dei dati di ricerca. In LL Harlow, SA Mulaik e JH Steiger (a cura di), e se non ci fossero test di significatività? (pagg. 37–64). Mahwah, NJ: Erlbaum.
Schönbrodt, FD (2015). p-checker: analizzatore del valore p uno per tutti. Estratto da http://shinyapps.org/apps/p-checker/ .
Simmons, JP, Nelson, LD e Simonsohn, U. (2011). Psicologia dei falsi positivi: la flessibilità non divulgata nella raccolta e nell'analisi dei dati consente di presentare qualcosa di così significativo. Scienze psicologiche, 22 (11), 1359-1366.
Simonsohn, U. (2013). La follia di potenziare le repliche in base alla dimensione dell'effetto osservato. Ritirato da http://datacolada.org/4
Simonsohn, U. (2014). Posteriore-hacking. Estratto da http://datacolada.org/13 .
Simonsohn, U., Nelson, LD e Simmons, JP (2014). Curva a P: una chiave per il cassetto file. Journal of Experimental Psychology: General, 143 (2), 534-547.
Simonsohn, U., Nelson, LD e Simmons, JP (2014). Curva P e dimensioni dell'effetto: correzione per la distorsione della pubblicazione utilizzando solo risultati significativi. Perspectives on Psychological Science, 9 (6), 666-681.
Wicherts, JM, Bakker, M., & Molenaar, D. (2011). La volontà di condividere i dati di ricerca è legata alla forza delle prove e alla qualità della comunicazione dei risultati statistici. PloS one, 6 (11), e26828.