Una rivista di psicologia ha vietato i valori p e gli intervalli di confidenza; è davvero saggio smettere di usarli?


73

Il 25 febbraio 2015 la rivista Basic and Applied Social Psychology ha pubblicato un editoriale che vieta i valori e gli intervalli di confidenza di tutti gli articoli futuri.p

In particolare, dicono (la formattazione e l'enfasi sono mie):

  • [...] prima della pubblicazione, gli autori dovranno rimuovere tutte le tracce dell'NHSTP [procedura di test di significatività dell'ipotesi nulla] ( valori- , valori- , valori- , dichiarazioni su differenze "significative" o mancanza di esse , e così via).ptF

  • Analogamente a come l'NHSTP non riesce a fornire la probabilità dell'ipotesi nulla, necessaria per fornire un caso valido per respingerlo, gli intervalli di confidenza non forniscono un caso valido per concludere che è probabile che il parametro di popolazione di interesse rientri nei valori dichiarati intervallo. Pertanto, anche gli intervalli di confidenza sono banditi da BASP.

  • [...] per quanto riguarda le procedure bayesiane, ci riserviamo il diritto di emettere giudizi caso per caso, e quindi le procedure bayesiane non sono né richieste né vietate da BASP.

  • [...] Sono richieste procedure statistiche inferenziali? - No [...] Tuttavia, BASP richiederà statistiche descrittive forti, comprese le dimensioni degli effetti.

Non discutiamo qui i problemi e l'uso improprio dei valori ; ci sono già molte discussioni eccellenti sul CV che si possono trovare sfogliando il tag p-value . La critica dei valori va spesso di pari passo con un consiglio per riportare gli intervalli di confidenza per i parametri di interesse. Ad esempio, in questa risposta molto ben argomentata, @gung suggerisce di riportare le dimensioni degli effetti con intervalli di confidenza intorno a loro. Ma questo diario vieta anche gli intervalli di confidenza.pp

Quali sono i vantaggi e gli svantaggi di un tale approccio alla presentazione di dati e risultati sperimentali rispetto all'approccio "tradizionale" con valori , intervalli di confidenza e dicotomia significativa / insignificante? La reazione a questo divieto sembra essere per lo più negativa; allora quali sono gli svantaggi? L'American Statistical Association ha anche pubblicato un breve commento scoraggiante su questo divieto, affermando che "questa politica può avere le sue conseguenze negative". Quali potrebbero essere queste conseguenze negative?p

O come ha suggerito @whuber di dirlo, questo approccio dovrebbe essere sostenuto come un paradigma della ricerca quantitativa? E se no, perché no?

PS. Nota che la mia domanda non riguarda il divieto stesso ; riguarda l'approccio suggerito. Non sto nemmeno chiedendo informazioni sull'inferenza frequentista e bayesiana. L'editoriale è piuttosto negativo anche riguardo ai metodi bayesiani; quindi si tratta essenzialmente di usare le statistiche invece di non usare affatto le statistiche.


Altre discussioni: reddit , Gelman .


14
Esiste un mapping uno-a-uno tra i valori p e gli intervalli di confidenza nei modelli di regressione lineare, quindi non vedo una forte ragione per cui vietare i valori p ma mantenere gli intervalli di confidenza avrebbe molto senso. Ma vietare sia i valori di p che gli intervalli di confidenza lascia un vuoto nella descrizione dei risultati ... Mi chiedo se consentano di riportare errori standard (sarebbe un'altra misura dello stesso gruppo di mappatura uno a uno).
Richard Hardy,

7
Tutto potrebbe essere usato in modo improprio, quindi vietare cose in queste condizioni è, beh ... strano. Non sono un fan dei valori p ma questo sembra un approccio abbastanza ingenuo al problema. Una cosa è incoraggiante a usare le cose giuste, ma bandire le cose non sembra un modo corretto di affrontare il problema ...
Tim

12
Grande idea. L'uso delle statistiche nasconde solo la natura non scientifica di questo campo.
Aksakal,

4
Sembra una reazione eccessiva alla frustrazione per l'uso improprio dei valori di p. Sarei molto più felice con un divieto sull'uso improprio dei valori di p piuttosto che dei valori di P in generale.
TrynnaDoStat,

8
Il quarto elemento del tuo elenco suggerisce che non richiedono stime puntuali, che sarebbero inferenze, ma le dimensioni degli effetti sono riportate semplicemente come statistiche descrittive. (Tuttavia, poche righe nell'editoriale, "incoraggiamo l'uso di campioni di dimensioni maggiori di quelle tipiche di molte ricerche in psicologia, poiché con l'aumentare delle dimensioni del campione, le statistiche descrittive diventano sempre più stabili e l'errore di campionamento è meno un problema". Attendo con impazienza la richiesta dell'editoriale del 2016 di cercare di formalizzare quantitativamente questa nozione di stabilità e contabilità per gli effetti dell'errore di campionamento.)
Scortchi - Ripristina Monica

Risposte:


23

La prima frase dell'attuale editoriale 2015 a cui si collega il PO, recita:

L'editoriale 2014 di Basic and Applied Social Psychology (BASP) * ha sottolineato * che la procedura di verifica del significato dell'ipotesi nulla (NHSTP) non è valida ...

(la mia enfasi)

In altre parole, per i redattori è un fatto scientifico già provato che il "test di significatività dell'ipotesi nulla" non è valido, e l'editoriale del 2014 lo ha solo sottolineato, mentre l'attuale editoriale del 2015 implementa proprio questo fatto.

L'uso improprio (anche maliziosamente) di NHSTP è effettivamente ben discusso e documentato. E nella storia umana non è inaudito che "le cose vengono bandite" perché è stato scoperto che dopo tutto ciò che è stato detto e fatto, sono state abusate più che sfruttate (ma non dovremmo testarlo statisticamente?). Può essere una soluzione "seconda migliore", per tagliare ciò che in media (statistiche inferenziali) ha comportato perdite, piuttosto che guadagni, e quindi prevediamo (statistiche inferenziali) che sarà dannoso anche in futuro.

Ma lo zelo rivelato dietro la formulazione della prima frase sopra, fa sembrare questo esattamente un approccio zelante piuttosto che una decisione decisa di tagliare la mano che tende a rubare piuttosto che offrire. Se si legge l'editoriale di un anno più vecchio menzionato nella citazione precedente (DOI: 10.1080 / 01973533.2014.865505), si vedrà che questo è solo una parte di una revisione delle politiche del Journal da parte di un nuovo editore.

Scorrendo la redazione, scrivono

... Al contrario, crediamo che la barra p <.05 sia troppo facile da superare e talvolta serva da scusa per una ricerca di qualità inferiore.

Quindi sembra che la loro conclusione relativa alla loro disciplina sia che le ipotesi null siano respinte "troppo spesso", e quindi i presunti risultati potrebbero acquisire un significato statistico spurio. Questo non è lo stesso argomento del detto "non valido" nella prima frase.

Quindi, per rispondere alla domanda, è ovvio che per i redattori della rivista, la loro decisione non è solo saggia ma è già in fase di attuazione: sembrano pensare di ritagliare quale parte delle statistiche è diventata dannosa, mantenendo parti benefiche: non sembrano credere che ci sia qualcosa qui che deve essere sostituito con qualcosa di "equivalente".

Epistemologicamente, questo è un caso in cui gli studiosi di scienze sociali si ritirano parzialmente dal tentativo di rendere la loro disciplina più obiettiva nei suoi metodi e risultati usando metodi quantitativi, perché sono arrivati ​​alla conclusione (come?) Che, alla fine , il tentativo ha creato "più male che bene". Direi che questa è una questione molto importante, in linea di principio possibile che sia accaduta, e che richiederebbe anni di lavoro per dimostrarlo "oltre ogni ragionevole dubbio" e aiutare davvero la tua disciplina. Ma solo uno o due editoriali e articoli pubblicati probabilmente (statistiche inferenziali) scateneranno una guerra civile.

L'ultima frase dell'editoriale 2015 recita:

Speriamo e prevediamo che il divieto del NHSTP avrà l'effetto di aumentare la qualità dei manoscritti inviati liberando gli autori dalla struttura stilizzata del pensiero NHSTP, eliminando così un ostacolo importante al pensiero creativo. Il NHSTP ha dominato la psicologia per decenni; speriamo che istituendo il primo divieto del NHSTP, dimostriamo che la psicologia non ha bisogno della stampella del NHSTP e che altre riviste ne seguano l'esempio.


5
Sì ... dobbiamo fare attenzione quando scriviamo risposte ironiche o sardoniche su questo sito: potrebbero essere (completamente) fraintesi!
whuber

4
@ naught101 ... non sarebbe molto diplomatico. Si noti che il modo in cui il NHSTP è condannato, risparmia agli stessi psicologi di averlo usato in tutti questi decenni. Se fosse scritto nel modo in cui lo proponi, sembrerebbe molto più simile a un attacco diretto ai loro colleghi come scienziati. Allo stato attuale essenzialmente il testo implica che gli psicologi pieni di buone intenzioni sono stati purtroppo ingannati nell'usare l'approccio, da "qualcuno", che ha abusato del suo "potere di autorità scientifica" in materia ... Forse da malvagi statistici guidati da scientifici imperialismo?
Alecos Papadopoulos,

4
Un brutto operaio incolpa i suoi strumenti.
naught101,

3
@BrianDHall Suggerirei di cercare risorse più autorevoli sui problemi che circondano NHSTP (incluso questo sito), piuttosto che le opere specifiche dell'autore sulla questione. La questione è difficile e sottile: già dal tuo commento si dovrebbe discutere prima della semantica di "accettare" e "affermare" ...
Alecos Papadopoulos,

6
@ naught101: se noti che il lavoratore non è in grado di gestire correttamente la motosega, potresti non incolpare lo strumento. Ma lo
porteresti

19

Sento che vietare i test di ipotesi è un'ottima idea, tranne che per alcune selezionate ipotesi di "esistenza", ad esempio testare l'ipotesi nulla che non ci sia una percezione extra-sensoriale in cui tutto ciò che si dovrebbe dimostrare per avere prove dell'esistenza di ESP è non casuale . Ma penso che il diario abbia mancato al punto che il principale motore di una cattiva ricerca in psicologia sia l'uso di una soglia sui valori- . È stato dimostrato in psicologia e nella maggior parte degli altri campi che una buona parte dei giochi continua ad arrivare a . Ciò include la sostituzione di ipotesi, la rimozione di osservazioni e il sottoinsieme dei dati. Sono le soglie che dovrebbero essere bandite per prime.PP<0.05

Anche il divieto di intervalli di confidenza è esagerato, ma non per i motivi che altri hanno affermato. Gli intervalli di confidenza sono utili solo se si interpretano erroneamente come intervalli credibili bayesiani (per priori non informativi adeguati). Ma sono ancora utili. Il fatto che la loro esatta interpretazione da frequentatore non porti altro che confusione implica che dobbiamo "uscire da Dodge" e andare alla scuola bayesiana o di probabilità. Ma si possono ottenere risultati utili interpretando erroneamente i vecchi limiti di fiducia.

È un peccato che i redattori della rivista abbiano frainteso le statistiche bayesiane e non siano a conoscenza dell'esistenza della pura inferenza di probabilità. Ciò che stanno cercando può essere facilmente fornito dalle distribuzioni posteriori bayesiane usando priori leggermente scettici.


+1, grazie. Vorrei chiarire gli intervalli di confidenza. Gli intervalli di confidenza sono correlati a errori standard, quindi il suggerimento è probabilmente di smettere di usarli. Consideriamo il caso più semplice: un valore viene misurato su un gruppo di soggetti / oggetti; diciamo che la media è 3. Per quanto ho capito questo diario suggerisce di segnalarlo semplicemente come 3. Ma non vorresti vedere anche l'errore standard, ad esempio ? Questo ovviamente significa che l'intervallo di confidenza al 95% è , il che significa anche che , quindi è tutto correlato. Non sono sicuro di come suggerisci di segnalarlo. n3±0.53±1p<0.05
ameba dice di reintegrare Monica il

4
Penso che gli errori standard siano troppo semplificati (perché presuppongono distribuzioni simmetriche) ma utili misure di precisione, come l'errore quadratico medio. Puoi pensare a un intervallo di precisione basato sull'errore al quadrato della radice media senza prevedere la copertura della probabilità. Quindi non vedo dove una qualsiasi di queste discussioni implichi la de-enfasi degli errori standard. E non stavo suggerendo di smettere di usare i CL. Ma la difficoltà con i CL deriva principalmente dai tentativi di interpretazione delle probabilità.
Frank Harrell,

Hmmm. Interessante. Per me sembra che ci sia un piccolo passo dall'errore standard all'IC (un fattore costante!), Che trattarli in modo diverso sarebbe strano. Ma forse è un punto semantico; Immagino che intendi dire che le persone pensano diversamente agli errori standard e agli elementi della configurazione e tendono a confondersi maggiormente sugli elementi della configurazione. Mi chiedo cosa dice questa particolare politica del giornale sugli errori standard (l'Editoriale non li menziona esplicitamente).
ameba dice di reintegrare Monica il

2
In situazioni simmetriche, l'errore standard è un blocco predefinito per un intervallo di confidenza. Ma in molti casi l'intervallo di confidenza corretto è asimmetrico, quindi non può assolutamente basarsi su un errore standard. Alcune varietà di bootstrap e back-trasforming sono due approcci di questo tipo. Gli intervalli di confidenza della probabilità del profilo vengono in mente qui.
Frank Harrell,

@Frank Harrell - Per quanto riguarda la "pura inferenza della verosimiglianza" concordo sul fatto che l'enfasi sulla sintesi della verosimiglianza dei dati senza abbellirla con soglie sembra essere la risposta per la quale gli editori stavano afferrando. Il libro "Likelihood" (1972) di AWF Edwards parla direttamente alla preoccupazione dell'editore: "Potremmo rimandare la considerazione di questi argomenti (ad esempio test di significatività) a capitoli successivi, e passare immediatamente alla descrizione di una procedura, basata sul concetto di Likelihood di Fisher , che è aperto a nessuno di questi oggetti che possono essere livellati in test di significatività ".
John Mark,

13

Vedo questo approccio come un tentativo di affrontare l'incapacità della psicologia sociale di replicare molti "risultati significativi" precedentemente pubblicati.

I suoi svantaggi sono:

  1. che non affronta molti dei fattori che portano a effetti spuri. Per esempio,

    • A) Le persone possono ancora dare una sbirciatina ai loro dati e smettere di eseguire i loro studi quando una dimensione dell'effetto li considera sufficientemente grandi da essere di interesse.

    • B) Le grandi dimensioni degli effetti sembreranno comunque avere un grande potere nelle valutazioni retrospettive del potere.

    • C) Le persone continueranno a pescare per ottenere effetti interessanti e grandi (testare un mucchio di ipotesi in un esperimento e quindi riportare quello che è spuntato) o

    • D) fingere che ci si aspettasse dappertutto uno strano effetto inaspettato.

    Non dovrebbero essere fatti sforzi per affrontare prima questi problemi?

  2. Come un campo che avanza farà una recensione delle scoperte passate piuttosto terribile. Non c'è modo di valutare quantitativamente la credibilità di diversi studi. Se ogni rivista implementasse questo approccio, avrai un gruppo di scienziati sociali che affermano che ci sono prove per X quando non è completamente chiaro quanto sia credibile X e gli scienziati discutono su come interpretare un effetto pubblicato o discutono se sia importante o utile parlare di. Non è questo il punto di avere statistiche? Fornire un modo coerente per valutare i numeri. Secondo me, questo nuovo approccio causerebbe un disastro se fosse ampiamente implementato.

  3. Questa modifica non incoraggia i ricercatori a presentare i risultati di studi con dimensioni di effetto ridotte, quindi non affronta realmente l'effetto del file drawer (o pubblicheranno risultati con n grandi indipendentemente dalla dimensione dell'effetto?). Se avessimo pubblicato tutti i risultati di studi attentamente progettati, anche se la credibilità dei risultati dei singoli studi potrebbe essere incerta, le meta-analisi e le revisioni degli studi che hanno fornito analisi statistiche farebbero un lavoro molto migliore nell'identificare la verità.


2
@captain_ahab Per quanto riguarda il punto 3, dobbiamo ricordare che il precedente editoriale (2014) dell'Editore ha incoraggiato esplicitamente la presentazione di studi "a effetto nullo".
Alecos Papadopoulos,

1
Non riesco a trovare un commento nell'editoriale che parli di criteri per la pubblicazione, tranne per la necessità di avere campioni più grandi del normale (non mi è chiaro come stiano pianificando di identificare n accettabili senza statistiche inferenziali). Per me in questo editoriale non c'è enfasi sul fatto che a loro non importa quale sia la dimensione dell'effetto. Mi sembra che saranno ancora alla ricerca di effetti e storie interessanti, che ritengo sia il problema maggiore nel lavoro delle scienze sociali (vale a dire la ricerca post-hoc di effetti e storie interessanti).
captain_ahab,

2
Ciò che sembra una soluzione migliore è che tutti gli scienziati devono registrare l'ipotesi, l'approccio razionale di base, il potere e l'analisi di uno studio in un luogo PUBBLICO PRIMA di eseguire lo studio. E poi limitarsi a pubblicare quello studio nel modo prescritto. Se si riscontra un effetto inatteso interessante, dovrebbero registrarsi pubblicamente, quindi eseguire un nuovo studio che esamina tale effetto. Questo approccio, pur controllando i falsi positivi, consentirebbe anche agli scienziati di dimostrare la propria produttività senza pubblicare nuovi effetti.
captain_ahab,

7

Mi sono imbattuto in una citazione meravigliosa che discute quasi per lo stesso punto, ma non del tutto - dal momento che è un paragrafo di apertura in un libro di testo che tratta principalmente di statistiche frequentiste e test di ipotesi.

È ampiamente ritenuto dai non statistici, come l'autore, che se si fanno buoni esperimenti le statistiche non sono necessarie. Hanno ragione. [...] Il problema, ovviamente, è che fare buoni esperimenti è difficile. La maggior parte delle persone ha bisogno di tutto l'aiuto possibile per impedire loro di prendersi in giro da sole sostenendo che la loro teoria preferita è confermata da osservazioni che non fanno nulla del genere. E la funzione principale di quella sezione di statistiche che si occupa di test di significato è quella di impedire alle persone di prendersi in giro da sole. Da questo punto di vista, la funzione dei test di significatività è quella di impedire alle persone di pubblicare esperimenti, non di incoraggiarli. Idealmente, in effetti, i test di significatività non dovrebbero mai apparire in stampa, essendo stati utilizzati, se non del tutto, nelle fasi preliminari per rilevare esperimenti inadeguati,

- David Colquhoun, lezioni di biostatistica , 1971


1
Il tuo post è davvero un commento, piuttosto che una risposta, quindi mi sto astenendo dal votarlo, ma desidero ringraziarti per aver condiviso la citazione. Ci sono così tanti fraintendimenti evidenti in questo passaggio che ci vorrebbe un grande sforzo (per non dire spazio) per evidenziarli e ridimensionarli tutti. In una parola, tuttavia, il contrasto a queste affermazioni è "efficienza". Se tutti avessero tempo e budget illimitati, potremmo almeno aspirare a fare "buoni esperimenti". Ma quando le risorse sono limitate, sarebbe sciocco (oltre che costoso) condurre solo esperimenti "finali, ... chiari".
whuber

2
Grazie per il tuo commento, @whuber; Sono d'accordo con quello che stai dicendo. Tuttavia, devo aggiungere che trovo interessante affermare che i dati idealmente sperimentali dovrebbero essere così convincenti da rendere superflui i test formali di ipotesi. Questo non è un ideale irraggiungibile! Nel mio campo (dove i valori p sono usati molto), trovo che i migliori articoli siano convincenti senza di loro: ad esempio perché presentano una sequenza di numerosi esperimenti che si sostengono a vicenda, che presi insieme, ovviamente non può essere un colpo di fortuna statistico. Ri commento: era troppo lungo per un commento, e ho pensato che fosse una risposta da CW.
ameba dice di ripristinare Monica

Sì, capisco perché doveva essere pubblicato come risposta e quindi non ho votato per spostarlo in un commento (che avrebbe interrotto l'ultima parte del preventivo). Concordo sul fatto che l'ideale non è irraggiungibile in casi particolari . Concordo anche sul fatto che sia un bel ideale da tenere a mente. Ma come guida su come progettare esperimenti (che è, nel complesso, una disciplina di allocazione delle risorse), potrebbe essere un terribile errore. (Questo è certamente discutibile.) Il suggerimento che un esperimento "buono" non richiederebbe mai metodi statistici è, tuttavia, uno che non resiste nemmeno all'esame superficiale.
whuber

1
Forse un modo di leggere che è come dire il test di significatività iniziale che ha suggerito che una sostanza stimola una certa risposta fisiologica non è più rilevante quando pubblichi le tue indagini sugli effetti di diversi tipi di inibitori sulla curva dose-risposta.
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.