ASA discute le limitazioni dei valori : quali sono le alternative?


100

Abbiamo già più thread etichettati come che rivelano molti fraintendimenti su di essi. Dieci mesi fa avevamo un thread sul diario psicologico che "bandiva" i valoripp , ora l' American Statistical Association (2016) afferma che con la nostra analisi "non dovremmo concludere con il calcolo di un valore ".p

L'American Statistical Association (ASA) ritiene che la comunità scientifica potrebbe beneficiare di una dichiarazione formale che chiarisce alcuni principi ampiamente condivisi su cui si basa il corretto uso e interpretazione del valore .p

Il comitato elenca altri approcci come possibili alternative o supplementi ai valori :p

In considerazione degli abusi e delle idee sbagliate prevalenti riguardanti i valori , alcuni statistici preferiscono integrare o addirittura sostituire i valori con altri approcci. Questi includono metodi che enfatizzano la stima rispetto ai test, come la fiducia, la credibilità o gli intervalli di previsione; Metodi bayesiani; misure alternative di prova, come rapporti di probabilità o fattori di Bayes; e altri approcci come la modellazione teorica delle decisioni e i tassi di falsa scoperta. Tutte queste misure e approcci si basano su ulteriori ipotesi, ma possono indirizzare più direttamente la dimensione di un effetto (e la sua incertezza associata) o se l'ipotesi è corretta.ppp

Immaginiamo quindi la realtà dei valori post- . ASA elenca alcuni metodi che possono essere utilizzati al posto dei valori , ma perché sono migliori? Quali di questi possono essere sostituti della vita reale per un ricercatore che ha usato valori per tutta la sua vita? Immagino che questo tipo di domande verrà visualizzato nel post- realtà -Valori, quindi forse cerchiamo di essere un passo avanti a loro. Qual è l'alternativa ragionevole che può essere applicata immediatamente? Perché questo approccio dovrebbe convincere il tuo ricercatore, editore o lettore principale?p p ppppp

Come suggerisce questo post sul blog di follow-up , i valori sono imbattibili nella loro semplicità:p

Il valore p richiede solo un modello statistico per il comportamento di una statistica sotto l'ipotesi nulla. Anche se un modello di ipotesi alternativa viene utilizzato per la scelta di una statistica "buona" (che verrebbe utilizzata per costruire il valore p), questo modello alternativo non deve essere corretto affinché il valore p sia valido e utile (ovvero: controllo dell'errore di tipo I al livello desiderato, offrendo al contempo un potere per rilevare un effetto reale). Al contrario, altri metodi statistici (meravigliosi e utili) come i rapporti di verosimiglianza, la stima della dimensione dell'effetto, gli intervalli di confidenza o i metodi bayesiani hanno tutti bisogno dei modelli assunti per contenere una gamma più ampia di situazioni, non semplicemente sotto il valore nullo testato.

Lo sono, o forse non è vero e possiamo facilmente sostituirli?

Lo so, questo è ampio, ma la domanda principale è semplice: qual è la migliore (e perché) alternativa alla vita reale ai valori che possono essere usati in sostituzione?p


ASA (2016). Dichiarazione ASA sul significato statistico e sui valoriP Lo statistico americano. (in stampa)


3
Vincolato a diventare una domanda classica +1! L'approccio bayesiano, perché ci consente di rispondere (almeno soggettivamente) alla domanda a cui siamo spesso interessati, vale a dire: "Alla luce delle prove (dati), qual è la probabilità che l'ipotesi sia vera?"
Christoph Hanck

9
" La realtà post- valore" ha un bel suono distopico. p
Marc Claesen,

4
I documenti di discussione pubblicati insieme alla dichiarazione ASA meritano di essere letti poiché alcuni di essi hanno suggerimenti su cosa potrebbe sostituire i valori p. Contenuto supplementare
Seth

2
Ho pubblicato una domanda correlata basata su un'altra parte del rapporto ASA, uno dei suoi avvertimenti sui potenziali abusi dei valori p: quanto sappiamo di p-hacking?
Silverfish

1
Come commento alla mia domanda, c'è un bel thread che discute un argomento simile: stats.stackexchange.com/questions/17897/…
Tim

Risposte:


100

Concentrerò questa risposta sulla domanda specifica di quali sono le alternative ai valori .p

Ci sono 21 articoli di discussione pubblicati insieme alla dichiarazione ASA (come Supplemental Materials): di Naomi Altman, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini, Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman, Steve Goodman, Sander Groenlandia, John Ioannidis, Joseph Horowitz, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman, Stephen Senn, Dalene Stangl, Philip Stark e Steve Ziliak (alcuni hanno scritto insieme ; Elencherò tutto per ricerche future). Queste persone probabilmente coprono tutte le opinioni esistenti su valori e inferenza statistica.p

Ho esaminato tutti i 21 documenti.

Sfortunatamente, la maggior parte di loro non discute di alternative reali, anche se la maggior parte riguarda limiti, incomprensioni e vari altri problemi con i valori (per una difesa dei valori , vedi Benjamini, Mayo e Senn). Ciò suggerisce già che eventuali alternative non sono facili da trovare e / o da difendere.ppp

Quindi diamo un'occhiata all'elenco di "altri approcci" fornito nella stessa dichiarazione ASA (come citato nella tua domanda):

[Altri approcci] includono metodi che enfatizzano la stima rispetto ai test, come la fiducia, la credibilità o gli intervalli di previsione; Metodi bayesiani; misure alternative di prova, come rapporti di probabilità o fattori di Bayes; e altri approcci come la modellazione teorica delle decisioni e i tassi di falsa scoperta.

  1. Intervalli di confidenza

    Gli intervalli di confidenza sono uno strumento frequentista che va di pari passo con i valori ; riportare un intervallo di confidenza (o qualche equivalente, ad esempio, errore medio della media) insieme al valore è quasi sempre una buona idea.± pp±p

    Alcune persone (non tra i contendenti dell'ASA) suggeriscono che gli intervalli di confidenza dovrebbero sostituire i valori . Uno dei sostenitori più espliciti di questo approccio è Geoff Cumming che lo chiama nuove statistiche (un nome che trovo spaventoso). Vedi ad esempio questo post sul blog di Ulrich Schimmack per una critica dettagliata: una nuova recensione critica di Cumming (2014): rivendere vecchie statistiche come nuove statistiche . Vedi anche Non possiamo permetterci di studiare la dimensione dell'effetto nel post del blog di laboratorio di Uri Simonsohn per un punto correlato.p

    Vedi anche questo thread (e la mia risposta in esso) sul suggerimento simile di Norm Matloff in cui sostengo che quando si segnalano gli IC si vorrebbe avere anche i valori riportati: Qual è un buon esempio convincente in cui i valori p sono utili?p

    Alcune altre persone (non tra i contendenti dell'ASA), tuttavia, sostengono che gli intervalli di confidenza, essendo uno strumento frequentista, sono fuorvianti quanto i valori e dovrebbero anche essere eliminati. Vedi, ad esempio, Morey et al. 2015, L'errore di porre fiducia negli intervalli di confidenza collegati da @Tim qui nei commenti. Questo è un dibattito molto antico.p

  2. Metodi bayesiani

    (Non mi piace il modo in cui la dichiarazione ASA formula l'elenco. Gli intervalli credibili e i fattori di Bayes sono elencati separatamente dai "metodi bayesiani", ma sono ovviamente strumenti bayesiani. Quindi li conto insieme qui.)

    • C'è una letteratura enorme e molto ponderata sul dibattito bayesiano contro frequentista. Vedi, ad esempio, questo recente thread per alcuni pensieri: quando (se mai) un approccio frequentista è sostanzialmente migliore di un bayesiano? Analisi bayesiana senso totale se uno ha buone priori informativi, e tutti sarebbero solo felici di calcolare e rapporto o invece dip(θ|data)p(H0:θ=0|data)p(data at least as extreme|H0)- ma ahimè, le persone di solito non hanno buoni priori. Uno sperimentatore registra 20 topi che fanno qualcosa in una condizione e 20 topi che fanno la stessa cosa in un'altra condizione; la previsione è che le prestazioni degli ex topi supereranno le prestazioni degli ultimi topi, ma nessuno sarebbe disposto o effettivamente in grado di dichiarare chiaramente le differenze di performance. (Ma vedi la risposta di @ FrankHarrell in cui sostiene la parola "priori scettici".)

    • Bayesiani irriducibili suggeriscono di usare i metodi bayesiani anche se non si hanno priori informativi. Un esempio recente è Krushke, 2012, la stima bayesiana sostituisce il testt , umilmente abbreviato come MIGLIORE. L'idea è di usare un modello bayesiano con deboli non informativi per calcolare il posteriore per l'effetto di interesse (come, ad esempio, una differenza di gruppo). La differenza pratica con il ragionamento frequentista di solito sembra essere minore, e per quanto posso vedere questo approccio rimane impopolare. Vedi Cos'è un "precedente non informativo"? Possiamo mai averne uno senza davvero informazioni? per la discussione di ciò che è "non informativo" (risposta: non esiste una cosa del genere, quindi la controversia).

    • Un approccio alternativo, che risale a Harold Jeffreys, si basa sui test bayesiani (al contrario della stima bayesiana ) e utilizza i fattori Bayes. Uno dei sostenitori più eloquenti e prolifici è Eric-Jan Wagenmakers, che ha pubblicato molto su questo argomento negli ultimi anni. Vale la pena sottolineare due caratteristiche di questo approccio. In primo luogo, vedere Wetzels et al., 2012, A Default Bayesian Hypothesis Test for ANOVA Designs per un'illustrazione di quanto fortemente il risultato di un tale test bayesiano possa dipendere dalla scelta specifica dell'ipotesi alternativaH1e la distribuzione dei parametri ("precedente") che pone. In secondo luogo, una volta scelto un precedente "ragionevole" (Wagenmakers pubblicizza i cosiddetti priori "predefiniti" di Jeffreys), i risultanti fattori di Bayes risultano spesso abbastanza coerenti con i valori standard , vedere ad esempio questa cifra da questa prestampa di Marsman & Wagenmakers :p

      Fattori di Bayes vs valori di p

      Quindi, mentre Wagenmakers et al. mantenere insistendo sul fatto che -Valori sono profondamente sbagliata e fattori di Bayes sono la strada da percorrere, non si può non chiedersi ... (Per essere onesti, il punto di Wetzels et al. 2011 è che per -Valori vicino a Bayes unicamente del fattore indica prove molto deboli contro il nulla; ma nota che questo può essere facilmente affrontato in un paradigma frequentista semplicemente usando un più rigoroso , qualcosa che molte persone stanno comunque sostenendo.) pp0.05α

      Uno degli articoli più popolari di Wagenmakers et al. nella difesa dei fattori di Bayes è il 2011, perché gli psicologi devono cambiare il modo in cui analizzano i loro dati: il caso della psi in cui sostiene che il famigerato articolo di Bem sulla previsione del futuro non avrebbe raggiunto le loro conclusioni errate se solo avessero usato invece i fattori di Bayes di valori . Vedi questo post sul blog riflessivo di Ulrich Schimmack per un contro-argomento dettagliato (e convincente dell'IMHO): Perché gli psicologi non dovrebbero cambiare il modo in cui analizzano i loro dati: il diavolo è nel priore predefinito .p

      Vedi anche The Default Bayesian Test è prevenuto contro il post sul blog di piccoli effetti di Uri Simonsohn.

    • Per completezza, menziono che Wagenmakers 2007, una soluzione pratica ai problemi pervasivi dei valori hap suggerito di usare il BIC come approssimazione al fattore Bayes per sostituire i valori . BIC non dipende dal precedente e quindi, nonostante il suo nome, non è proprio bayesiano; Non sono sicuro di cosa pensare a questa proposta. Sembra che più recentemente Wagenmakers sia più a favore dei test bayesiani con i priori disinformativi di Jeffreys, vedi sopra.p


    Per ulteriori discussioni sulla stima di Bayes rispetto ai test bayesiani, vedere Stima dei parametri bayesiani o Test delle ipotesi bayesiane? e collegamenti in esso.

  3. Fattori minimi di Bayes

    Tra i contendenti dell'ASA, questo è esplicitamente suggerito da Benjamin & Berger e da Valen Johnson (gli unici due articoli che suggeriscono un'alternativa concreta). I loro suggerimenti specifici sono un po 'diversi ma sono simili nello spirito.

    • Le idee di Berger risalgono a Berger & Sellke 1987 e ci sono numerosi articoli di Berger, Sellke e collaboratori fino allo scorso anno che elaborano questo lavoro. L'idea è che sotto un picco e una lastra precedenti in cui il punto null ipotesi ottiene la probabilità e tutti gli altri valori di ottengano la probabilità diffondono simmetricamente attorno a ("alternativa locale"), quindi il minimo posteriore su tutte le alternative locali, ovvero il fattore minimo di Bayes , è molto più alto del valore . Questa è la base dell'affermazione (molto contestata) cheμ=00.5μ0.50p(H0)pp valori "sopravvalutano le prove" rispetto al valore nullo. Il suggerimento è di usare un limite inferiore sul fattore di Bayes a favore del valore nullo anziché del valore ; con alcune assunzioni generali questo limite inferiore risulta essere dato da , cioè il valore è effettivamente moltiplicato per che è un fattore compreso tra e per il comune intervallo di valori . Questo approccio è stato approvato anche da Steven Goodman.peplog(p)pelog(p)1020p

      Aggiornamento successivo: guarda un simpatico cartone animato che spiega queste idee in modo semplice.

      Aggiornamento anche più tardi: vedi Held & Ott, 2018, On -Values ​​and Bayes Factorsp per una revisione completa e un'ulteriore analisi della conversione dei valori- in fattori minimi di Bayes. Ecco una tabella da lì:p

      Fattori di Mininum Bayes

    • Valen Johnson ha suggerito qualcosa di simile nel suo articolo del PNAS 2013 ; il suo suggerimento si riduce approssimativamente alla moltiplicazione dei valori per che è circa da a .p4πlog(p)510


    Per una breve critica del documento di Johnson, vedere la risposta di Andrew Gelman e @ Xi'an in PNAS. Per la controproposta a Berger & Sellke 1987, vedi Casella & Berger 1987 (diversi Berger!). Tra gli articoli di discussione dell'APA, Stephen Senn discute esplicitamente contro uno di questi approcci:

    Le probabilità di errore non sono probabilità posteriori. Certamente, c'è molto di più nell'analisi statistica dei valori di ma dovrebbero essere lasciati soli piuttosto che essere deformati in qualche modo per diventare probabilità posteriori bayesiane di seconda classe.P

    Vedi anche riferimenti nel documento di Senn, compresi quelli al blog di Mayo.

  4. L'istruzione ASA elenca "la modellazione teorica delle decisioni e i tassi di falsa scoperta" come un'altra alternativa. Non ho idea di cosa stiano parlando, ed ero felice di vederlo dichiarato nel documento di discussione di Stark:

    La sezione "altri approcci" ignora il fatto che i presupposti di alcuni di questi metodi sono identici a quelli dei valori . In effetti, alcuni dei metodi usano -values ​​come input (ad es. Il False Discovery Rate).pp


Sono molto scettico sul fatto che ci sia qualcosa che possa sostituire i valori- nella pratica scientifica reale in modo tale che i problemi che sono spesso associati ai valori- (crisi di replicazione, -hacking, ecc.) Scompaiano. Qualsiasi procedura di decisione fissa, ad esempio una bayesiana, può probabilmente essere "hackerata" allo stesso modo in cui i valori possono essere -hacked (per alcune discussioni e dimostrazioni di questo vedi questo post del blog 2014 di Uri Simonsohn ).ppppp

Per citare dal documento di discussione di Andrew Gelman:

In sintesi, sono d'accordo con la maggior parte delle dichiarazioni dell'ASA sui valori ma ritengo che i problemi siano più profondi e che la soluzione non sia riformare i valori o sostituirli con qualche altro riepilogo o soglia statistica, ma piuttosto per andare verso una maggiore accettazione dell'incertezza e abbracciare la variazione.pp

E da Stephen Senn:

In breve, il problema è minore con i valori per sé ma con la creazione di un idolo di essi. Sostituire un altro falso dio non aiuterà.P

Ed ecco come Cohen lo inserì nel suo famoso documento del 1994 The Earth è rotondo ( ),p<0.05 dove ha discusso molto fortemente contro i valori :p

[...] non cercare un'alternativa magica al NHST, qualche altro rituale meccanico oggettivo per sostituirlo. Non esiste


1
@amoeba grazie, questo è un ottimo riassunto! Sono d'accordo con il tuo scetticismo: questa discussione è nata in parte perché la condivido. In questo momento lascio aperta la discussione - senza una risposta accettata - poiché forse qualcuno sarà in grado di fornire esempi e argomentazioni convincenti dell'esistenza di una valida alternativa.
Tim

1
@amoeba per quanto riguarda Wagenmakers e BIC è bene confrontarlo con la critica, ad esempio di Gelman: andrewgelman.com/2008/10/23/i_hate_bic_blah
Tim

2
Questa è una risposta davvero impressionante che merita di essere tra le risposte più votate al CV. Potrei aggiungere un altro premio dopo Tim.
gung - Ripristina Monica

Grazie, @gung, sono felice di saperlo, significa che molto viene da te. Devo dire però che ho solo superficialmente familiarità con i test bayesiani e non ho esperienza pratica con esso. Quindi questa risposta fornisce un riepilogo di ciò che ho letto, ma non è in realtà un parere di esperti.
amoeba,

1
No, non è necessario un precedente informativo affinché Bayes funzioni correttamente. Come ha dimostrato Spiegelhalter così bene, i priori scettici hanno un ruolo importante e sono facili da usare. Le probabilità posteriori bayesiane presentano notevoli vantaggi.
Frank Harrell,

27

Ecco i miei due centesimi.

Penso che ad un certo punto molti scienziati applicati abbiano affermato il seguente "teorema":

Teorema 1: p-value<0.05my hypothesis is true.

e la maggior parte delle cattive pratiche viene da qui.

Il valore e l'induzione scientificap

Lavoravo con le persone che usavano le statistiche senza capirle davvero ed ecco alcune delle cose che vedo:

  1. eseguendo molti test / riparazioni possibili (senza guardare una volta alla distribuzione dei dati) fino a trovare quello "buono": quello che dà ;p<0.05

  2. provare diverse preelaborazioni (ad es. nella diagnostica per immagini) per ottenere i dati da analizzare fino a ottenere quello che dà ;p<0.05

  3. raggiungere applicando il test t con una coda nella direzione positiva per i dati con effetto positivo e nella direzione negativa per i dati con effetto negativo (!!).0.05

Tutto ciò viene fatto da scienziati onesti e versati che non hanno una forte sensazione di barare. Perché ? IMHO, a causa del teorema 1.

In un dato momento, lo scienziato applicato può credere fortemente nella sua ipotesi. Ho persino il sospetto che credano di sapere che sono vere e il fatto è che in molte situazioni hanno visto dati da anni, ci hanno pensato mentre lavoravano, camminavano, dormivano ... e sono i migliori per dire qualcosa sulla risposta a questa domanda. Il fatto è, nella loro mente (scusate, penso di sembrare un po 'arrogante qui), secondo il Teorema 1 se la loro ipotesi è vera, il valore deve essere inferiore a ; non importa quale sia la quantità di dati, come sono distribuiti, l'ipotesi alternativa, l'effetto dimensione, la qualità dell'acquisizione dei dati. Se il valore non èp0.05p<0.05e l'ipotesi è vera, quindi qualcosa non è corretto: la preelaborazione, la scelta del test, la distribuzione, il protocollo di acquisizione ... quindi li cambiamo ... -value è solo la chiave ultima dell'induzione scientifica.p<0.05

A questo punto, sono d'accordo con le due risposte precedenti che intervalli di confidenza o intervalli credibili rendono la risposta statistica più appropriata alla discussione e all'interpretazione. Mentre il valore è difficile da interpretare (IMHO) e termina la discussione, le stime degli intervalli possono servire a un'induzione scientifica illustrata da statistiche oggettive ma condotte da argomenti di esperti.p

Il valore e l'ipotesi alternativap

Un'altra conseguenza di Th.1 è che se -value allora l'ipotesi alternativa è falsa. Ancora una volta questo è qualcosa che incontro molte volte:p>0.05

  1. prova a confrontare (solo perché abbiamo i dati) un'ipotesi del tipo : prendi casualmente 10 punti dati per ciascuno dei due gruppi, calcola il valore per . Trova , nota in alcune parti del cervello che non c'è differenza tra i due gruppi.H0:μ1μ2pH0p=0.2

Un problema principale con il -value è che l'alternativa non viene mai menzionata mentre penso che in molti casi ciò possa essere di grande aiuto. Un esempio tipico è il punto 4., in cui ho proposto al mio collega di calcolare il rapporto posteriore per vs. e ottenere qualcosa come 3 (lo so la figura è ridicolmente bassa). Il ricercatore mi chiede se ciò significa che la probabilità che sia 3 volte più forte di quellep ( μ 1 > μ 2 | x ) p ( μ 1 < μ 2 | x ) μ 1 > μ 2 μ 2 > μ 1pp(μ1>μ2|x)p(μ1<μ2|x)μ1>μ2μ2>μ1. Ho risposto che questo è un modo di interpretarlo e lei lo trova sorprendente e che dovrebbe guardare più dati e scrivere un documento ... Il mio punto non è che questo "3" la aiuta a capire che c'è qualcosa nei dati (di nuovo 3 è chiaramente anedottico) ma sottolinea che lei interpreta erroneamente il valore p in quanto "valore p> 0,05 non significa nulla di interessante / gruppi equivalenti". Quindi, secondo me, discutere sempre almeno delle ipotesi alternative (es!) È obbligatorio, permette di evitare la semplificazione, dà elemento al dibattito.

Un altro caso correlato è quando gli esperti vogliono:

  1. test . Per questo testano e rifiutano quindi concludono usando il fatto che le stime ML sono ordinate.μ 1 = μ 2 = μ 3 μ 1 > μ 2 > μ 3μ1>μ2>μ3μ1=μ2=μ3μ1>μ2>μ3

Menzionare l'ipotesi alternativa è l'unica soluzione per risolvere questo caso.

Quindi, usando le probabilità posteriori, il fattore di Bayes o il rapporto di verosimiglianza congiuntamente agli intervalli di confidenza / credibilità sembra ridurre i problemi principali coinvolti.

L'interpretazione errata comune degli intervalli -value / confidenza è un difetto relativamente minore (in pratica)p

Mentre sono un appassionato bayesiano, penso davvero che la comune interpretazione errata di -value e CI (ovvero il -value non sia la probabilità che l'ipotesi nulla sia falsa e l'IC non sia l'intervallo che contiene il valore del parametro con 95 % di probabilità) non è la principale preoccupazione per questa domanda (mentre sono sicuro che questo è un punto importante da un punto di vista filosofico). Il punto di vista bayesiano / frequentista ha entrambe le risposte pertinenti per aiutare il praticante in questa "crisi". ppp

La mia conclusione da due centesimi

L'uso dell'intervallo credibile e del fattore di Bayes o delle probabilità posteriori è ciò che cerco di fare nella mia pratica con esperti (ma sono anche appassionato del rapporto CI + verosimiglianza). Sono venuto alla statistica alcuni anni fa principalmente studiando da solo dal web (grazie mille a Cross Validated!) E così sono cresciuto con le numerose agitazioni attorno ai valori . Non so se la mia pratica è buona, ma è quello che pragmaticamente trovo come un buon compromesso tra essere efficiente e fare il mio lavoro correttamente.p


Forse potresti modificare il tuo esempio per essere più chiaro dal momento che per ora cosa stavi calcolando, quali erano i dati e da dove provenivano i numeri?
Tim

@ Tim. Tks per il feedbak. A quale esempio ti riferisci?
peuhp

"prova a confrontare (solo perché abbiamo i dati) un'ipotesi: prendi 10 e 10 dati, calcola il valore p. Trova p = 0,2 ...."
Tim

1
Inoltre, non penso che "conoscere" la tua ipotesi sia vera anche se i dati sembrano suggerire altrimenti è necessariamente una cosa negativa. Apparentemente è così che Gregor Mendel avvertì quando c'era qualcosa di sbagliato nei suoi esperimenti, perché aveva un'intuizione così forte che le sue teorie erano corrette.
Dsaxton,

@dsaxton Sono pienamente d'accordo con te. Forse non è così chiaro ma questa è una cosa che cerco di illustrare nel mio primo punto: il valore p non è la chiave ultima dell'induzione scientifica (mentre sembra essere per un certo pubblico). Si tratta di una misurazione statistica delle prove attraverso una certa quantità di dati, a determinate condizioni. E nel caso in cui tu abbia troppe ragioni esterne per pensare che l'ip sia vero, ma quando i dati forniscono il valore "buono" p, è possibile discutere di altre cose se lo hai opportunamente menzionato. Proverò a renderlo più chiaro nella mia risposta.
peuhp

24

P

  1. Sono disponibili più software per i metodi frequentisti rispetto ai metodi bayesiani.
  2. Attualmente, alcune analisi bayesiane richiedono molto tempo per essere eseguite.
  3. I metodi bayesiani richiedono più pensiero e più tempo per gli investimenti. Non mi dispiace la parte pensante, ma il tempo è spesso breve quindi prendiamo scorciatoie.
  4. Il bootstrap è una tecnica quotidiana altamente flessibile e utile che è più connessa al mondo frequentista che al bayesiano.

PP fa sì che si debbano fare arbitrarie regolazioni della molteplicità, anche aggiustando per l'aspetto dei dati che potrebbe aver avuto un impatto ma in realtà no.

P

Ad eccezione dei modelli lineari gaussiani e della distribuzione esponenziale, quasi tutto ciò che facciamo con l'inferenza del frequentista è approssimativo (un buon esempio è il modello logistico binario che causa problemi perché la sua funzione di probabilità logaritmica è molto non quadratica). Con l'inferenza bayesiana, tutto è esatto all'interno dell'errore di simulazione (e puoi sempre fare più simulazioni per ottenere probabilità posteriori / intervalli credibili).

Ho scritto un resoconto più dettagliato del mio pensiero ed evoluzione su http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html


3
p

2
p

3
t

1
Frank, grazie. Non ho molta familiarità con i test bayesiani (e non ho mai sentito parlare di Box & Tiao prima), ma la mia impressione generale è che il fattore Bayes che si esce da un test bayesiano può dipendere abbastanza fortemente dalla scelta specifica di un precedente non informativo che entra. E queste scelte possono essere difficili da motivare. Immagino che lo stesso valga per gli intervalli credibili: dipenderanno fortemente dalla scelta di un precedente non informativo. Non è vero? Se lo è, allora come si dovrebbe occuparsene?
Amoeba,

2
Sì, anche se non uso i fattori Bayes. Anche l'approccio frequentista sceglie un precedente, che ignora tutte le altre conoscenze sull'argomento. Preferisco l'approccio scettico precedente di Spiegelhalter. In un mondo ideale lascerai che i tuoi scettici forniscano il priore.
Frank Harrell,

6

Un brillante previsore Scott Armstrong di Wharton ha pubblicato un articolo circa 10 anni fa intitolato Test di significatività Harm Progress in Forecasting sul giornale internazionale di previsione di un giornale che ha co-fondato. Anche se questo è nelle previsioni, potrebbe essere generalizzato a qualsiasi analisi dei dati o processo decisionale. Nell'articolo afferma che:

"test di rilevanza statistica danneggiano il progresso scientifico. Gli sforzi per trovare eccezioni a questa conclusione non hanno finora prodotto risultati."

Questa è una lettura eccellente per chiunque sia interessato alla visione antitetica dei test di significatività e dei valori P.

Il motivo per cui mi piace questo articolo è perché Armstrong offre alternative al test di significatività che è sintetico e potrebbe essere facilmente compreso soprattutto per un non statistico come me. Questo è molto meglio secondo me rispetto all'articolo ASA citato nella domanda:inserisci qui la descrizione dell'immagine

Tutto ciò che continuo ad abbracciare e da allora ho smesso di usare i test di significatività o di guardare i valori di P, tranne quando faccio studi sperimentali randomizzati o quasi esperimenti. Devo aggiungere che gli esperimenti randomizzati sono molto rari nella pratica tranne nell'industria farmaceutica / scienze della vita e in alcuni campi dell'ingegneria.


4
Cosa intendi con "esperimenti randomizzati sono molto rari nella pratica tranne nell'industria farmaceutica e in alcuni campi dell'ingegneria"? Esperimenti randomizzati sono ovunque in biologia e psicologia.
amoeba,

L'ho modificato per includere le scienze della vita.
previsioni

2
Va bene, ma dicendo quel rand. exp. sono "molto rari" tranne che in medicina e nelle scienze della vita e la psicologia sta sostanzialmente dicendo che sono "molto comuni". Quindi non sono sicuro del tuo punto.
amoeba,

6

p

p. Penso ancora che questo sia un approccio adeguato, che lascia la questione dell'applicabilità scientifica dei risultati nelle mani di quegli esperti di contenuti. Ora, l'errore che troviamo nelle applicazioni moderne non è in alcun modo un difetto della statistica come scienza. Anche il gioco è la pesca, l'estrapolazione e l'esagerazione. Infatti, se (diciamo) un cardiologo dovesse mentire e affermare che un farmaco che abbassa la pressione media di 0,1 mmHg è "clinicamente significativo", nessuna statistica ci proteggerà mai da quel tipo di disonestà.

Abbiamo bisogno di porre fine all'inferenza statistica teorica della decisione. Dovremmo sforzarci di pensare oltre l'ipotesi. Il crescente divario tra l'utilità clinica e l'indagine guidata dalle ipotesi compromette l'integrità scientifica. Lo studio "significativo" è estremamente suggestivo ma raramente promette risultati clinicamente significativi.

Ciò è evidente se esaminiamo gli attributi dell'inferenza guidata dall'ipotesi:

  • L'ipotesi nulla dichiarata è inventata, non concorda con le conoscenze attuali e sfida la ragione o le aspettative.
  • Le ipotesi possono essere tangenziali al punto che l'autore sta cercando di fare. Le statistiche raramente si allineano con gran parte della discussione che ne segue in articoli, con autori che affermano ampiamente che, ad esempio, il loro studio osservazionale ha implicazioni per la politica pubblica e la sensibilizzazione.
  • Le ipotesi tendono ad essere incomplete, nel senso che non definiscono adeguatamente la popolazione di interesse e tendono a portare a un'eccessiva generalizzazione

Per me l'alternativa esiste un approccio meta-analitico, almeno qualitativo. Tutti i risultati dovrebbero essere controllati rigorosamente rispetto ad altri "simili" risultati e differenze descritti con molta attenzione, in particolare criteri di inclusione / esclusione, unità o scale utilizzate per esposizioni / risultati, nonché dimensioni degli effetti e intervalli di incertezza (che sono meglio sintetizzati con IC al 95% ).

Dobbiamo anche condurre prove di conferma indipendenti. Molte persone sono influenzate da un processo apparentemente significativo, ma senza replica non possiamo fidarci che lo studio sia stato condotto eticamente. Molti hanno creato carriere scientifiche con la falsificazione di prove.


"Il suggerimento originale di Fisher era che gli scienziati dovessero confrontare qualitativamente il valore p con il potere dello studio e trarre conclusioni lì." Adoro questo punto --- hai un riferimento che potrei citare dove Fisher ha detto questo? Sarebbe un enorme passo in avanti se gli scienziati passassero da una semplice dicotomia di p <0,05 a una dicotomia solo leggermente meno-semplice: "Se p <0,05 E la potenza fosse alta, avremmo prove ragionevolmente forti. Se p> 0,05 O il potere era basso, rifiuteremo il giudizio su questa ipotesi fino a quando non avremo più dati ".
civilstat,

6

ppp

Due riferimenti dalla letteratura medica sono (1) di Langman, MJS intitolato Verso la stima e gli intervalli di confidenza e Gardner MJ e Altman, DG intitolati Intervalli di confidenza anziché valori di {P}: stima piuttosto che test di ipotesi


2
In realtà, CI di fanno non mostrano dimensione dell'effetto e precisione, controllare ad esempio Morey et al (2015) "L'errore di mettere la fiducia in intervalli di confidenza" Psychonomic Bulletin & Review: learnbayes.org/papers/confidenceIntervalsFallacy
Tim

8
@Tim, bella carta, non l'ho mai vista prima; Mi è piaciuto l'esempio del sottomarino. Grazie per il link Ma si dovrebbe dire che è scritto da veri partigiani bayesiani: "Gli intervalli non bayesiani hanno proprietà indesiderabili, anche bizzarre, che porterebbero qualsiasi analista ragionevole a rifiutarle come mezzo per trarre inferenze". Qualsiasi analista ragionevole! Impressionante arroganza.
amoeba

1
@amoeba sono d'accordo, sto solo fornendo un contro-esempio, dal momento che, per quanto mi riguarda, non è così ovvio che le alternative sono così chiare e dirette come potrebbe apparire a prima vista.
Tim

4
Per quanto interessante non ho trovato l'esempio sottomarino così avvincente. Nessuno statistico pensante potrebbe ragionare come quello dell'esempio. Non smetti di pensare e applichi un metodo alla cieca in tutte le situazioni solo perché è utile negli altri.
Dsaxton,

2
@amoeba: In quella particolare citazione, "Gli intervalli non bayesiani" si riferisce specificamente agli intervalli discussi in quell'esempio, non a tutti gli intervalli giustificati dalla logica non bayesiana. Vedi qui per più contesto: stats.stackexchange.com/questions/204530/…
richarddmorey

1

La mia scelta sarebbe quella di continuare a usare i valori di p, ma semplicemente aggiungendo intervalli di confidenza / credibilità, e possibilmente per gli intervalli di previsione dei risultati primari. C'è un bel libro di Douglas Altman (Statistics with Confidence, Wiley), e grazie agli approcci boostrap e MCMC, puoi sempre costruire intervalli ragionevolmente robusti.


6
Penso che tu non risponda davvero alla domanda principale che è "perché sono migliori?" / "Perché questo approccio dovrebbe convincere il tuo ricercatore, editore o lettore principale?". Puoi sviluppare la tua scelta?
peuhp

1. Ciò consente semplicemente la pratica attuale. 2. C'è comunque la tendenza a fare "test di significatività backdoor" con l'IC, 3. Il test di significatività (con valori p o IC) porta a un basso tasso di riproducibilità (vedi articoli di Tim Lash). 4. I ricercatori non possono preoccuparsi di prespecificare un limite o una soglia di effetto clinicamente significativi.
AdamO

1

p

  • sviluppare un modello più sofisticato in grado di simulare i risultati in una popolazione target
  • identificare e misurare gli attributi di una popolazione target in cui una decisione, un trattamento o una politica proposti potrebbero essere implementati
  • stimare mediante simulazione una perdita attesa in unità grezze di una quantità target come anni di vita, anni di vita adeguati alla qualità, dollari, produzione agricola ecc. e valutare l'incertezza di tale stima.

In ogni caso, ciò non preclude il normale test di significatività delle ipotesi, ma sottolinea che i risultati statisticamente significativi sono molto precoci, passi intermedi sulla strada della vera scoperta e dovremmo aspettarci che i ricercatori facciano molto di più con i loro risultati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.