Le dimensioni degli effetti sono davvero superiori ai valori di p?


14

Molta enfasi è posta sul fare affidamento e riportare le dimensioni degli effetti piuttosto che i valori p nella ricerca applicata (ad es. Citazioni più avanti).

Ma non è vero che una dimensione dell'effetto come un valore p sia una variabile casuale e come tale può variare da campione a campione quando si ripete lo stesso esperimento? In altre parole, mi chiedo quali caratteristiche statistiche (ad es., La dimensione dell'effetto è meno variabile da campione a campione rispetto al valore p) rendono le dimensioni dell'effetto migliori indici di misurazione delle prove rispetto ai valori p?

Dovrei, tuttavia, menzionare un fatto importante che separa un valore p da una dimensione dell'effetto. Cioè, una dimensione dell'effetto è qualcosa da stimare perché ha un parametro di popolazione ma un valore p non è nulla da stimare perché non ha alcun parametro di popolazione.

Per me, la dimensione dell'effetto è semplicemente una metrica che in alcune aree della ricerca (ad esempio la ricerca umana) aiuta a trasformare i risultati empirici che provengono da vari strumenti di misurazione sviluppati dai ricercatori in una metrica comune (è giusto dire che usando questa metrica la ricerca umana può adattarsi meglio il club di ricerca quantistica).

Forse se prendiamo una semplice proporzione come dimensione dell'effetto, quanto segue (in R) è ciò che mostra la supremazia delle dimensioni dell'effetto rispetto ai valori p? (il valore p cambia ma la dimensione dell'effetto no)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

Si noti che la maggior parte delle dimensioni degli effetti sono linearmente correlate a una statistica di prova. Pertanto, è un semplice passaggio per eseguire test di ipotesi nulla utilizzando dimensioni dell'effetto.

Ad esempio, la statistica t risultante da un disegno pre-post può essere facilmente convertita nella dimensione dell'effetto d di Cohen corrispondente. In quanto tale, la distribuzione di D di Cohen è semplicemente la versione in scala di distribuzione.

Le citazioni:

Poiché i valori p sono indici confusi, in teoria 100 studi con diverse dimensioni del campione e 100 diverse dimensioni dell'effetto potrebbero avere lo stesso valore p singolo e 100 studi con la stessa dimensione dell'effetto singolo potrebbero avere 100 valori diversi per valore p .

o

p-value è una variabile casuale che varia da campione a campione. . . . Di conseguenza, non è appropriato confrontare i valori p di due esperimenti distinti o dei test su due variabili misurate nello stesso esperimento e dichiarare che uno è più significativo dell'altro?

citazioni:

Thompson, B. (2006). Fondamenti di statistiche comportamentali: un approccio basato sull'intuizione. New York, NY: Guilford Press.

Good, PI, & Hardin, JW (2003). Errori comuni nelle statistiche (e come evitarli). New York: Wiley.


12
Non traggo le stesse conclusioni dalle citazioni (che le dimensioni dell'effetto sono "superiori" o dovrebbero essere riportate al posto dei valori p). Sono consapevole che alcune persone hanno reagito in modo eccessivo facendo dichiarazioni del genere (come il divieto BASP sui valori p). Non è una situazione l'una o l'altra: è il caso di sottolineare che i valori p e le dimensioni dell'effetto forniscono diversi tipi di informazioni utili. Normalmente uno non dovrebbe essere esaminato senza considerarlo nel contesto dell'altro.
whuber

1
Personalmente penso che sia sufficiente segnalare un preventivo insieme a un intervallo di confidenza. Fornisce contemporaneamente la dimensione dell'effetto (significato pratico) e il test di ipotesi (significato statistico).
Jirapat Samranvedhya,

1
Se i valori di p o le dimensioni dell'effetto sono "superiori" dipende dalla tua prospettiva. Il primo deriva dalla tradizione NHST dei pescatori, mentre il secondo dalla tradizione Neyman-Pearson. In alcuni campi (scienze biologiche, discipline umanistiche), le dimensioni degli effetti tendono ad essere molto piccole, rendendo attraenti i valori p. Al contrario, come notano altri, i valori di p possono essere "forzati" più piccoli attraverso cambiamenti nel design, come un aumento di N.
HEITZ

3
Un cacciavite è superiore a un martello?
kjetil b halvorsen,

Un dado è superiore a un bullone?
Sisto Empirico

Risposte:


21

Il consiglio di fornire dimensioni dell'effetto anziché valori di P si basa su una falsa dicotomia ed è sciocco. Perché non presentare entrambi?

Le conclusioni scientifiche dovrebbero basarsi su una valutazione razionale delle prove e della teoria disponibili. I valori P e le dimensioni degli effetti osservati da soli o insieme non sono sufficienti.

Nessuno dei passaggi citati forniti è utile. Naturalmente i valori di P variano da esperimento a esperimento, la forza dell'evidenza nei dati varia da esperimento a esperimento. Il valore P è solo un'estrazione numerica di tale evidenza tramite il modello statistico. Data la natura del valore P, molto raramente è rilevante ai fini analitici confrontare un valore P con un altro, quindi forse è quello che l'autore della citazione sta cercando di comunicare.

Se ti ritrovi a voler confrontare i valori P, probabilmente avresti dovuto eseguire un test di significatività su una diversa disposizione dei dati per rispondere in modo sensato alla domanda di interesse. Vedi queste domande: valori-p per valori-p? e se la media di un gruppo differisce da zero ma l'altro no, possiamo concludere che i gruppi sono diversi?

Quindi, la risposta alla tua domanda è complessa. Non trovo utili risposte dicotomiche ai dati basate su valori P o dimensioni dell'effetto, quindi le dimensioni dell'effetto sono superiori ai valori P? Sì, no, a volte, forse, e dipende dal tuo scopo.


Penso che sarebbe preferibile presentare la dimensione dell'effetto e il suo intervallo di confidenza, a condizione che l'analista sia correttamente in grado di affermare quale sia la dimensione significativa dell'effetto per lo studio in corso. L'intervallo di confidenza, a differenza del valore p, dà al lettore un senso sia della precisione della stima che della sua estremità.
AdamO,

1
@AdamO Sì, sono in gran parte d'accordo, ma il valore P ha due cose da offrire e non dovrebbe essere omesso. È un indice della forza dell'evidenza contro il nulla, qualcosa che può essere ottenuto da un occhio di fiducia solo da un intervallo di confidenza e un valore P esatto non invita direttamente la dicotomia dentro / fuori che l'intervallo di confidenza fa . Naturalmente, una funzione di verosimiglianza offre vantaggi su entrambi.
Michael Lew,

14

Nel contesto della ricerca applicata, le dimensioni dell'effetto sono necessarie ai lettori per interpretare il significato pratico (in contrapposizione al significato statistico) dei risultati. In generale, i valori di p sono molto più sensibili alla dimensione del campione rispetto alle dimensioni dell'effetto. Se un esperimento misura accuratamente una dimensione dell'effetto (cioè è sufficientemente vicina al parametro di popolazione che sta stimando) ma produce un valore p non significativo, a parità di condizioni, aumentando la dimensione del campione si otterrà la stessa dimensione dell'effetto ma un valore p inferiore. Questo può essere dimostrato con analisi o simulazioni di potenza.

Alla luce di ciò, è possibile ottenere valori p estremamente significativi per dimensioni di effetto che non hanno alcun significato pratico. Al contrario, i progetti di studio a bassa potenza possono produrre valori p non significativi per dimensioni di effetto di grande importanza pratica.

È difficile discutere i concetti di significatività statistica rispetto alla dimensione dell'effetto senza un'applicazione specifica nel mondo reale. Ad esempio, considera un esperimento che valuta l'effetto di un nuovo metodo di studio sulla media dei voti degli studenti (GPA). Direi che una dimensione dell'effetto di 0,01 punti di grado ha poco significato pratico (cioè 2,50 rispetto a 2,51). Supponendo una dimensione del campione di 2.000 studenti in entrambi i gruppi di trattamento e di controllo e una deviazione standard della popolazione di 0,5 punti elementari:

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE) 

media del campione di trattamento = 2,51

media del campione di controllo = 2,50

dimensione dell'effetto = 2,51 - 2,50 = 0,01

p = 0,53

Aumentare la dimensione del campione a 20.000 studenti e tenere tutto il resto costante produce un valore p significativo:

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)  

media del campione di trattamento = 2,51

media del campione di controllo = 2,50

dimensione dell'effetto = 2,51 - 2,50 = 0,01

p = 0,044

Ovviamente non è cosa da poco aumentare la dimensione del campione di un ordine di grandezza! Tuttavia, penso che possiamo essere tutti d'accordo sul fatto che il miglioramento pratico offerto da questo metodo di studio è trascurabile. Se facessimo affidamento esclusivamente sul valore p, allora potremmo credere diversamente nel caso n = 20.000.

Personalmente sostengo di riportare sia i valori p sia le dimensioni dell'effetto. E punti bonus per statistiche T o F, gradi di libertà e diagnostica dei modelli!


2
Darren, per favore, mostra cosa intendi esattamente in R o qualcosa come PO.
user138773,

7
@Darrent James Non c'è alcuna importanza pratica in una differenza tra p = 0,065 e p = 0,043 oltre lo sfortunato presupposto che p = 0,05 sia una linea luminosa che dovrebbe essere rispettata. Né il valore P rappresenta prove convincenti a favore o contro qualcosa da solo.
Michael Lew,

@Michael Lew Sì, sono d'accordo!
Darren James,

1
James, dato il tuo codice e le tue spiegazioni, sembra che tu abbia completamente frainteso il punto del PO. Anche il tuo codice R è sbagliato! Perché NON hai impostato il var.equal = TRUEtempo mentre i tuoi sdsono uguali. Con questo background, non sono sicuro del perché tu abbia pubblicato una risposta come questa. OP sta facendo una domanda che non ha una risposta facile almeno al momento attuale!
user138773,

1
Ho aggiunto var.equal = TRUE al codice. Ma non è necessario in questo caso. Gli stessi valori p si ottengono con var.equal = TRUE e il valore predefinito var.equal = FALSE.
Darren James,

5

Attualmente lavoro nel campo della scienza dei dati e prima di allora ho lavorato nella ricerca educativa. Durante ogni "carriera" ho collaborato con persone che non provenivano da un background formale in statistica e in cui l'accento sul significato statistico (e pratico) è fortemente posto sul valore p . Ho imparato a includere ed enfatizzare le dimensioni degli effetti nelle mie analisi perché c'è una differenza tra significato statistico e significato pratico.

In generale, le persone con cui ho lavorato si sono preoccupate di una cosa "il nostro programma / funzionalità produce e ha un impatto, sì o no?". A una domanda come questa, puoi fare qualcosa di semplice come un test t e riferirgli "sì, il tuo programma / funzionalità fa la differenza". Ma quanto è grande o piccola questa "differenza"?

Innanzitutto, prima di iniziare ad approfondire questo argomento, vorrei riassumere ciò a cui ci riferiamo quando parliamo di dimensioni dell'effetto

La dimensione dell'effetto è semplicemente un modo per quantificare la dimensione della differenza tra due gruppi. [...] È particolarmente utile per quantificare l'efficacia di un particolare intervento, rispetto ad alcuni confronti. Ci consente di andare oltre il semplicistico " Funziona o no?" al molto più sofisticato, "Quanto funziona bene in una vasta gamma di contesti?" Inoltre, ponendo l'accento sull'aspetto più importante di un intervento - la dimensione dell'effetto - piuttosto che il suo significato statistico (che unisce dimensione dell'effetto e dimensione del campione), promuove un approccio più scientifico all'accumulo di conoscenza. Per questi motivi, la dimensione dell'effetto è uno strumento importante nel reporting e nell'interpretazione dell'efficacia.

È la dimensione dell'effetto, stupida: che cos'è la dimensione dell'effetto e perché è importante

α

Perché il valore P non è abbastanza?

Il significato statistico è la probabilità che la differenza osservata tra due gruppi sia dovuta al caso. Se il P valore è maggiore del livello alfa scelto (ad es., 0,05), si presume che qualsiasi differenza osservata sia spiegata dalla variabilità del campionamento. Con un campione sufficientemente ampio, un test statistico dimostrerà quasi sempre una differenza significativa, a meno che non vi sia alcun effetto, cioè quando la dimensione dell'effetto è esattamente zero; tuttavia differenze molto piccole, anche se significative, sono spesso insignificanti. Pertanto, riportare solo il valore P significativo per un'analisi non è adeguato affinché i lettori possano comprendere appieno i risultati.

E per corroborare i commenti di @ DarrenJames su campioni di grandi dimensioni

Ad esempio, se una dimensione del campione è 10 000, è probabile che venga trovato un valore P significativo anche quando la differenza nei risultati tra i gruppi è trascurabile e potrebbe non giustificare un intervento costoso o dispendioso in termini di tempo rispetto a un altro. Il livello di significatività di per sé non prevede la dimensione dell'effetto. A differenza dei test di significatività, la dimensione dell'effetto è indipendente dalla dimensione del campione. Il significato statistico, d'altra parte, dipende sia dalla dimensione del campione che dalla dimensione dell'effetto. Per questo motivo, i valori di P sono considerati confusi a causa della loro dipendenza dalla dimensione del campione. A volte un risultato statisticamente significativo significa solo che è stata utilizzata un'enorme dimensione del campione. [C'è una visione errata che questo comportamento rappresenti un pregiudizio contro l'ipotesi nulla.Perché il test delle ipotesi del frequentista diventa distorto verso il rifiuto dell'ipotesi nulla con campioni sufficientemente grandi? ]

Uso della dimensione dell'effetto o perché il valore P non è sufficiente

Segnala sia il valore P sia le dimensioni dell'effetto

Ora per rispondere alla domanda, le dimensioni dell'effetto sono superiori ai valori p ? Direi che ciascuno di essi costituisce una componente importante nell'analisi statistica che non può essere confrontata in tali termini e che dovrebbe essere riportata insieme. Il valore p è una statistica che indica la significatività statistica (differenza dalla distribuzione nulla), dove la dimensione dell'effetto mette in parole quanta differenza c'è.

Ad esempio, ad esempio il tuo supervisore, Bob, che non è molto attento alle statistiche, è interessato a vedere se ci fosse una relazione significativa tra peso (peso) e mpg (miglia per gallone). Si avvia l'analisi con ipotesi

H0:βmpg=0 vs HUN:βmpg0

α=0.05

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

summaryβmpg0

Quindi, sei stato in grado di concludere che i risultati erano statisticamente significativi e comunicare il significato in termini pratici.

Spero che questo sia stato utile per rispondere alla tua domanda.


Jon, grazie, ci sono MOLTE aree grigie di cui speravo di saperne di più, ma non l'ho fatto. In molte situazioni le dimensioni dell'effetto e i valori p non sono d'accordo. Molte dimensioni dell'effetto fiducia in tali situazioni che volevo sapere perché. Speravo di saperne di più sulle simulazioni che potevano mostrare punti importanti. Per quanto riguarda la questione che hai sollevato, cioè, quella dimensione dell'effetto potrebbe essere minuscola ma non esattamente zero; metodi di test di equivalenza sono in atto da diversi anni. Mi piace ancora di più il test di equivalenza bayesiana. Comunque, probabilmente non ho posto la domanda in modo abbastanza chiaro. - Grazie
rnorouzian il

A proposito, un collega ha commentato che il codice R di Daren è sbagliato, sembra che abbia ragione. Non ha messo var.equal = TRUE.
rnorouziano,

* In molte situazioni le dimensioni dell'effetto e i valori p non sono d'accordo. * - Potete fornire ulteriori informazioni al riguardo? Un esempio? Per quanto riguarda la questione che hai sollevato, vale a dire che la dimensione dell'effetto potrebbe essere minuscola ma non esattamente zero - questa situazione può comportare una grande dimensione del campione. Pertanto, se la dimensione dell'effetto è quasi zero, la variabile di interesse potrebbe non influire in modo significativo sul risultato o la relazione potrebbe essere specificata in modo errato (ad esempio, lineare o non lineare).
Jon,

Prova questo strumento . Vedi anche questo documento . Sembra che dovrò fare un'altra domanda in un secondo momento usando un po 'di codice per chiarezza. -- Grazie.
rnorouziano,

@rnorouzian, okay, ho eseguito il tuo codice. Qual è il tuo punto?
Jon,

4

L'utilità delle dimensioni dell'effetto rispetto ai valori di p (così come ad altre metriche di inferenza statistica) è regolarmente discussa nel mio campo — la psicologia — e il dibattito è attualmente più “caldo”, del normale per ragioni che sono rilevanti per la tua domanda. E anche se sono sicuro che la psicologia non è necessariamente il campo scientifico più statisticamente sofisticato, ha prontamente discusso, studiato e, a volte, dimostrato, i limiti di vari approcci all'inferenza statistica, o almeno come sono limitati dall'uso umano. Le risposte già pubblicate includono buoni spunti, ma nel caso in cui tu sia interessato a un elenco più ampio (e riferimenti) dei motivi a favore e contro ciascuno, vedi sotto.

Perché i valori di p non sono desiderabili?

  • Come osserva Darren James (e la sua simulazione mostra), i valori di p dipendono in larga misura dal numero di osservazioni che hai (vedi Kirk, 2003)
  • Come osserva Jon, i valori di p rappresentano la probabilità condizionale di osservare i dati come estremi o più estremi dato che l'ipotesi nulla è vera. Poiché la maggior parte dei ricercatori preferirebbe avere probabilità dell'ipotesi della ricerca e / o dell'ipotesi nulla, i valori p non parlano alle probabilità a cui i ricercatori sono più interessati (cioè dell'ipotesi nulla o della ricerca, vedi Dienes, 2008)
  • Molti che usano valori p non capiscono cosa significano / non significano (Schmidt & Hunter, 1997). Il riferimento di Michael Lew al documento di Gelman e Stern (2006) sottolinea ulteriormente i malintesi dei ricercatori su ciò che si può (o non si può) interpretare dai valori di p. E comedimostrauna storia relativamente recente su FiveThirtyEight , questo continua ad essere il caso.
  • i valori di p non sono grandi nel prevedere i successivi valori di p (Cumming, 2008)
  • i valori di p sono spesso segnalati erroneamente (più spesso gonfiando il significato) e la segnalazione errata è collegata a una riluttanza a condividere i dati (Bakker & Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011)
  • i valori di p possono essere (e storicamente, sono stati) attivamente distorti attraverso la flessibilità analitica, e quindi non sono affidabili (John et al., 2012; Simmons et al., 2011)
  • i valori di p sono sproporzionatamente significativi, poiché i sistemi accademici sembrano premiare gli scienziati per il significato statistico sull'accuratezza scientifica (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)

Perché sono desiderabili le dimensioni degli effetti?

Si noti che sto interpretando la tua domanda facendo riferimento in modo specifico alle dimensioni degli effetti standardizzate, poiché dici che consentono ai ricercatori di trasformare i loro risultati in "metrica comune".

  • Come indicano Jon e Darren James, le dimensioni degli effetti indicano l'entità di un effetto, indipendentemente dal numero di osservazioni (American Psychological Association 2010; Cumming, 2014) rispetto a prendere decisioni dicotomiche sulla presenza o meno di un effetto.
  • Le dimensioni dell'effetto sono preziose perché rendono possibili le meta-analisi e la meta-analisi stimola la conoscenza cumulativa (Borenstein et al., 2009; Chan & Arvey, 2012)
  • Le dimensioni dell'effetto aiutano a facilitare la pianificazione delle dimensioni del campione tramite un'analisi di potenza a priori e quindi un'allocazione efficiente delle risorse nella ricerca (Cohen, 1992)

Perché sono desiderabili i valori p?

Sebbene siano meno frequentemente sposati, i valori p hanno un numero di vantaggi. Alcuni sono noti e di lunga data, mentre altri sono relativamente nuovi.

  • I valori P forniscono un indice comodo e familiare della forza dell'evidenza rispetto all'ipotesi nulla del modello statistico.

  • Se calcolati correttamente, i valori p forniscono un mezzo per prendere decisioni dicotomiche (che a volte sono necessarie), e i valori p aiutano a mantenere i tassi di errore falsi positivi a lungo termine a un livello accettabile (Dienes, 2008; Sakaluk, 2016) [It non è strettamente corretto affermare che i valori P sono richiesti per le decisioni dicotomiche. In effetti sono ampiamente utilizzati in questo modo, ma Neyman e Pearson hanno utilizzato "regioni critiche" nello spazio statistico del test a tale scopo. Vedi questa domanda e le sue risposte]

  • i valori p possono essere utilizzati per facilitare una pianificazione delle dimensioni del campione costantemente efficiente (non solo un'analisi di potenza una tantum) (Lakens, 2014)
  • i valori p possono essere utilizzati per facilitare la meta-analisi e valutare il valore probatorio (Simonsohn et al., 2014a; Simonsohn et al., 2014b). Vedi questo post sul blog per una discussione accessibile su come le distribuzioni di valori p possono essere utilizzate in questo modo, così come questo post CV per una discussione correlata.
  • i valori p possono essere usati in modo forense per determinare se potrebbero essere state utilizzate pratiche di ricerca discutibili e come potrebbero essere risultati replicabili (Schimmack, 2014; vedi anche l'app di Schönbrodt, 2015)

Perché le dimensioni degli effetti sono indesiderabili (o sopravvalutate)?

Forse la posizione più controintuitiva per molti; perché la segnalazione di dimensioni di effetto standardizzate sarebbe indesiderabile o quanto meno sopravvalutata?

  • In alcuni casi, le dimensioni degli effetti standardizzati non sono tutto ciò che sono state create (ad esempio, Groenlandia, Schlesselman e Criqui, 1986). Baguely (2009), in particolare, ha una bella descrizione di alcuni dei motivi per cui le dimensioni di effetti grezzi / non standardizzati potrebbero essere più desiderabili.
  • Nonostante la loro utilità per l'analisi della potenza a priori, le dimensioni degli effetti non vengono effettivamente utilizzate in modo affidabile per facilitare un'efficiente pianificazione delle dimensioni del campione (Maxwell, 2004)
  • Anche quando le dimensioni degli effetti vengono utilizzate nella pianificazione delle dimensioni del campione, poiché vengono gonfiate tramite il bias della pubblicazione (Rosenthal, 1979) , le dimensioni degli effetti pubblicate sono di utilità discutibile per una pianificazione affidabile delle dimensioni del campione (Simonsohn, 2013)
  • Le stime sulla dimensione dell'effetto possono essere — e sono state — calcolate sistematicamente in modo errato nel software statistico (Levine & Hullet, 2002)
  • Le dimensioni degli effetti vengono erroneamente estratte (e probabilmente dichiarate erroneamente), il che mina la credibilità delle meta-analisi (Gøtzsche et al., 2007)
  • Infine, la correzione della distorsione della pubblicazione nelle dimensioni dell'effetto rimane inefficace (vedi Carter et al., 2017), che, se ritieni che esista una distorsione della pubblicazione, rende le meta-analisi meno impattanti.

Sommario

Facendo eco al punto sollevato da Michael Lew, i valori di p e le dimensioni dell'effetto sono solo due elementi di prova statistica; ce ne sono anche altri che vale la pena considerare. Ma come i valori p e le dimensioni degli effetti, anche altre metriche di valore probatorio hanno problemi condivisi e unici. I ricercatori di solito applicano erroneamente e interpretano erroneamente gli intervalli di confidenza (ad es. Hoekstra et al., 2014; Morey et al., 2016), ad esempio, e il risultato delle analisi bayesiane può essere distorto dai ricercatori, proprio come quando si usano i valori p (ad es. Simonsohn , 2014).

Tutte le metriche delle prove hanno vinto e tutti devono avere dei premi.

Riferimenti

Associazione Americana di Psicologia. (2010). Manuale di pubblicazione dell'American Psychological Association (6a edizione). Washington, DC: American Psychological Association.

Baguley, T. (2009). Dimensione dell'effetto standardizzata o semplice: cosa dovrebbe essere segnalato? British Journal of Psychology, 100 (3), 603-617.

Bakker, M., & Wicherts, JM (2011). La (errata) segnalazione di risultati statistici su riviste di psicologia. Metodi di ricerca comportamentale, 43 (3), 666-678.

Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009). Introduzione alla meta-analisi. West Sussex, Regno Unito: John Wiley & Sons, Ltd.

Carter, EC, Schönbrodt, FD, Gervais, WM e Hilgard, J. (2017, 12 agosto). Correzione del pregiudizio in psicologia: un confronto tra metodi meta-analitici. Estratto da osf.io/preprints/psyarxiv/9h3nu

Chan, ME e Arvey, RD (2012). Meta-analisi e sviluppo della conoscenza. Perspectives on Psychological Science, 7 (1), 79-92.

Cohen, J. (1992). Un primer di potenza. Bollettino psicologico, 112 (1), 155-159. 

Cumming, G. (2008). Replicazione e intervalli p: i valori p predicono il futuro solo vagamente, ma gli intervalli di confidenza fanno molto meglio. Perspectives on Psychological Science, 3, 286– 300.

Dienes, D. (2008). Comprendere la psicologia come scienza: un'introduzione all'inferenza scientifica e statistica. New York, NY: Palgrave MacMillan.

Fanelli, D. (2010). I risultati "positivi" aumentano nella gerarchia delle scienze. PloS one, 5 (4), e10068.

Gelman, A., & Stern, H. (2006). La differenza tra "significativo" e "non significativo" non è di per sé statisticamente significativa. The American Statistician, 60 (4), 328-331.

Gøtzsche, PC, Hróbjartsson, A., Marić, K., & Tendal, B. (2007). Errori di estrazione dei dati nelle meta-analisi che utilizzano differenze medie standardizzate. JAMA, 298 (4), 430-437.

Groenlandia, S., Schlesselman, JJ e Criqui, MH (1986). L'errore di utilizzare coefficienti di regressione standardizzati e correlazioni come misure di effetto. American Journal of Epidemiology, 123 (2), 203-208.

Hoekstra, R., Morey, RD, Rouder, JN e Wagenmakers, EJ (2014). Robusta interpretazione errata degli intervalli di confidenza. Bollettino psicologico e revisione, 21 (5), 1157-1164.

John, LK, Loewenstein, G., & Prelec, D. (2012). Misurare la prevalenza di pratiche di ricerca discutibili con incentivi per dire la verità. PsychologicalSsence, 23 (5), 524-532.

Kirk, RE (2003). L'importanza dell'entità dell'effetto. In SF Davis (Ed.), Manuale dei metodi di ricerca in psicologia sperimentale (pagg. 83-105). Malden, MA: Blackwell.

Lakens, D. (2014). Esecuzione efficiente di studi ad alta potenza con analisi sequenziali. European Journal of Social Psychology, 44 (7), 701-710.

Levine, TR e Hullett, CR (2002). Eta al quadrato, eta parziale al quadrato e dichiarazione errata delle dimensioni dell'effetto nella ricerca sulla comunicazione. Human Communication Research, 28 (4), 612-625.

Maxwell, SE (2004). La persistenza di studi insufficienti nella ricerca psicologica: cause, conseguenze e rimedi. Metodi psicologici, 9 (2), 147.

Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD, & Wagenmakers, EJ (2016). L'errore di riporre fiducia negli intervalli di confidenza. Bollettino psicologico e revisione, 23 (1), 103-123.

Nosek, BA, Spies, JR, & Motyl, M. (2012). Utopia scientifica: II. Ristrutturazione di incentivi e pratiche per promuovere la verità sulla pubblicabilità. Perspectives on Psychological Science, 7 (6), 615-631.

Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, ​​S., & Wicherts, JM (2016). La prevalenza di errori di segnalazione statistica in psicologia (1985-2013). Metodi di ricerca comportamentale, 48 (4), 1205-1226.

Rosenthal, R. (1979). Il problema del cassetto file e la tolleranza per risultati nulli. Bollettino psicologico, 86 (3), 638-641.

Sakaluk, JK (2016). Esplorare piccoli, confermando grandi: un sistema alternativo alle nuove statistiche per far avanzare la ricerca psicologica cumulativa e replicabile. Journal of Experimental Social Psychology, 66, 47-54.

Schimmack, U. (2014). Quantificare l'integrità della ricerca statistica: l'indice di replicabilità. Estratto da http://www.r-index.org 

Schmidt, FL e Hunter, JE (1997). Otto obiezioni comuni ma false alla sospensione dei test di significatività nell'analisi dei dati di ricerca. In LL Harlow, SA Mulaik e JH Steiger (a cura di), e se non ci fossero test di significatività? (pagg. 37–64). Mahwah, NJ: Erlbaum.

Schönbrodt, FD (2015). p-checker: analizzatore del valore p uno per tutti. Estratto da http://shinyapps.org/apps/p-checker/

Simmons, JP, Nelson, LD e Simonsohn, U. (2011). Psicologia dei falsi positivi: la flessibilità non divulgata nella raccolta e nell'analisi dei dati consente di presentare qualcosa di così significativo. Scienze psicologiche, 22 (11), 1359-1366.

Simonsohn, U. (2013). La follia di potenziare le repliche in base alla dimensione dell'effetto osservato. Ritirato da http://datacolada.org/4

Simonsohn, U. (2014). Posteriore-hacking. Estratto da http://datacolada.org/13 .

Simonsohn, U., Nelson, LD e Simmons, JP (2014). Curva a P: una chiave per il cassetto file. Journal of Experimental Psychology: General, 143 (2), 534-547.

Simonsohn, U., Nelson, LD e Simmons, JP (2014). Curva P e dimensioni dell'effetto: correzione per la distorsione della pubblicazione utilizzando solo risultati significativi. Perspectives on Psychological Science, 9 (6), 666-681.

Wicherts, JM, Bakker, M., & Molenaar, D. (2011). La volontà di condividere i dati di ricerca è legata alla forza delle prove e alla qualità della comunicazione dei risultati statistici. PloS one, 6 (11), e26828.


2
Bellissima raccolta di idee e riferimenti. Dovrebbe essere utile per coloro che vogliono approfondire un po ', ma nota che molti dei punti hanno domande e risposte pertinenti su questo sito. Anche i collegamenti a questi sarebbero di aiuto.
Michael Lew,

@MichaelLew Grazie. Vedrò di aggiungere alcuni link quando avrò il tempo più tardi - mi ci è voluto la parte migliore del pomeriggio per redigere questa risposta e assemblare i riferimenti. Per quanto riguarda la tua modifica, penso che il tuo punto sia ben preso, ma forse più di un'aggiunta, piuttosto che una correzione? Ho detto che i valori p forniscono un mezzo per prendere decisioni dicotomiche (non che siano "richieste", o l'unico modo per farlo). Concordo sul fatto che le regioni critiche NP siano un altro modo, ma ho risposto all'OP nel contesto di ciò che i valori p offrono rispetto alle dimensioni degli effetti standardizzate.
jsakaluk,

1
jsakaluk, sì, vedo che avresti impiegato molto tempo nella risposta ed è molto utile e degno del tuo sforzo. Ho modificato l'articolo sui vantaggi dei valori P perché hai scritto "Se usati correttamente" possono essere dicotomizzati, mentre la realtà è che un tale uso ignora gran parte delle informazioni codificate nel valore P e quindi è discutibile (e a mio avviso) un uso errato. Non volevo sovvertire la tua intenzione e quindi ho cambiato "usato" in "calcolato".
Michael Lew,

3

Dal punto di vista di un epidemiologo, sul motivo per cui preferisco le dimensioni dell'effetto rispetto ai valori p (anche se, come alcune persone hanno notato, è una sorta di falsa dicotomia):

  1. La dimensione dell'effetto mi dice cosa voglio veramente, il valore p mi dice solo se è distinguibile da null. Un rischio relativo di 1.0001, 1.5, 5 e 50 potrebbe avere tutti lo stesso valore p associato ad essi, ma significherebbe cose molto diverse in termini di ciò che potremmo dover fare a livello di popolazione.
  2. Affidarsi a un valore p rafforza l'idea che il test delle ipotesi basato sulla significatività sia la prova definitiva. Considera le seguenti due affermazioni: "I medici che sorridevano ai pazienti non erano significativamente associati a un esito avverso durante la loro degenza in ospedale". vs. "I pazienti che hanno avuto il sorriso del proprio medico hanno avuto il 50% in meno di probabilità di avere un esito avverso (p = 0,086)." Potresti ancora, dato che non ha assolutamente alcun costo, potresti considerare di suggerire ai medici di sorridere ai loro pazienti?
  3. Lavoro con molti modelli di simulazione stocastica, in cui la dimensione del campione è una funzione della potenza di calcolo e della pazienza e i valori di p sono essenzialmente privi di significato. Sono riuscito a ottenere p <0,05 risultati per cose che non hanno assolutamente rilevanza clinica o di salute pubblica.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.