Come riassumere intervalli credibili per un pubblico medico


21

Con i pacchetti Stan e frontend rstanarmo brmsposso facilmente analizzare i dati nel modo bayesiano come facevo prima con modelli misti come lme. Mentre ho la maggior parte del libro e degli articoli di Kruschke-Gelman-Wagenmakers-ecc. Sulla mia scrivania, questi non mi dicono come sintetizzare i risultati per un pubblico medico, diviso tra l'ira di Skesla dei bayesiani e i cariddi dei revisori medici ( "vogliamo significati, non quella roba diffusa").

Un esempio: la frequenza gastrica (1 / min) è misurata in tre gruppi; controlli sani sono il riferimento. Esistono diverse misurazioni per ciascun partecipante, quindi alla frequentista ho usato il seguente modello misto lme:

summary(lme(freq_min~ group, random = ~1|study_id, data = mo))

Risultati leggermente modificati:

Fixed effects: freq_min ~ group 
                   Value Std.Error DF t-value p-value
(Intercept)        2.712    0.0804 70    33.7  0.0000
groupno_symptoms   0.353    0.1180 27     3.0  0.0058
groupwith_symptoms 0.195    0.1174 27     1.7  0.1086

Per semplicità, userò l'errore 2 * std come IC al 95%.

In un contesto frequentista, avrei riassunto questo come:

  • Nel gruppo di controllo la frequenza stimata era di 2,7 / min (forse aggiungere qui CI, ma a volte lo evito a causa della confusione creata dall'assoluto e differenziale CI).
  • Nel gruppo no_symptoms, la frequenza era superiore di 0,4 / min, CI (da 0,11 a 0,59) / min, p = 0,006 rispetto al controllo.
  • Nel gruppo with_symptoms, la frequenza era maggiore di 0,2 / min, CI (da -0,04 a 0,4) / min, p = 0,11 rispetto al controllo.

Si tratta della massima complessità accettabile per una pubblicazione medica, il revisore probabilmente mi chiederà di aggiungere "non significativo" nel secondo caso.

Qui è lo stesso con stan_lmere priori predefiniti.

freq_stan = stan_lmer(freq_min~ group + (1|study_id), data = mo)


           contrast lower_CredI frequency upper_CredI
        (Intercept)     2.58322     2.714       2.846
   groupno_symptoms     0.15579     0.346       0.535
 groupwith_symptoms    -0.00382     0.188       0.384

dove CredI sono intervalli credibili del 90% (vedere la vignetta rstanarm perché il 90% viene utilizzato come predefinito).

Domande:

  • Come tradurre il riassunto di cui sopra nel mondo bayesiano?
  • Fino a che punto è richiesta una discussione preliminare? Sono abbastanza sicuro che il documento tornerà con la solita "assunzione soggettiva" quando menzionerò i priori; o almeno con "nessuna discussione tecnica, per favore". Ma tutte le autorità bayesiane richiedono che l'interpretazione sia valida solo nel contesto dei priori.
  • Come posso fornire un surrogato "significativo" nella formulazione, senza tradire i concetti bayesiani? Qualcosa di simile a "credibilmente diverso" (uuuh ...) o quasi credibilmente diverso (buoha ..., suona come "sull'orlo del significato).

Jonah Gabry e Ben Goodrich (2016). rstanarm: modellazione della regressione applicata bayesiana via Stan. R pacchetto versione 2.9.0-3. https://CRAN.R-project.org/package=rstanarm

Stan Development Team (2015). Stan: una libreria C ++ per probabilità e campionamento, versione 2.8.0. URL http://mc-stan.org/ .

Paul-Christian Buerkner (2016). brms: modelli di regressione bayesiana usando Stan. Versione pacchetto R 0.8.0. https://CRAN.R-project.org/package=brms

Pinheiro J, Bates D, DebRoy S, Sarkar D e R Core Team (2016). nlme: modelli di effetti misti lineari e non lineari . R pacchetto versione 3.1-124, http://CRAN.R-project.org/package=nlme>.


1
Non ho esperienza con revisori / editori di riviste mediche, ma forse potresti provare a dire che c'è zero probabilità che l'intercettazione sia negativa, zero probabilità che il coefficiente sulla variabile fittizia "nessun sintomo" sia negativo e circa una probabilità del 5% che il coefficiente sulla variabile fittizia "con sintomi" è negativo. Puoi quantificare il 5% più precisamente facendo mean(as.matrix(freq_stan)[,"groupwith_symptoms"] < 0).
Ben Goodrich,

Ci abbiamo pensato e il 5% sembrava ok; i ricercatori lo tradurranno in "significato", ma siccome normalmente fraintendono il significato, avranno ragione per doppia negazione. La "probabilità zero", d'altra parte, è un assassino: lo accetteresti? Forse <1 / Reff (p <0,001) sarebbe un'approssimazione? Ma ancora: quando scrivo p <xxx, sono nel mondo del significato.
Dieter Menne,

Correggere Reff su n_eff sopra.
Dieter Menne,

1
Personalmente non farei riferimento a una probabilità di coda come avere "meno di 1 nella probabilità n_eff" perché n_eff riguarda la precisione con cui viene stimata la media. Forse potresti far correre le tue catene abbastanza a lungo da ottenere 1 pareggio negativo per il coefficiente group_nosymptomse poi dire che la probabilità che sia negativo è 1 / draws. Ma per l'intercettazione, la catena non andrà mai in territorio negativo per questi dati, quindi immagino che potresti dire che la probabilità è inferiore a 1 / draws.
Ben Goodrich,

Ho ricevuto alcuni buoni consigli sull'inclusione di valori p per un esperto di dominio ma non per un revisore statistico di esperti qui: stats.stackexchange.com/questions/148649/… . Abbiamo usato p <minimo (n_eff di tutti i parametri) come limite superiore conservativo quando p = 0.
stijn

Risposte:


16

Pensieri rapidi:

1) Il problema chiave è la domanda a cui stai cercando di rispondere per il tuo pubblico, perché determina quali informazioni desideri dall'analisi statistica. In questo caso, mi sembra che tu voglia stimare l'entità delle differenze tra i gruppi (o forse l'entità dei rapporti dei gruppi se questa è la misura più familiare al tuo pubblico). L'entità delle differenze non è fornita direttamente dalle analisi presentate nella domanda. Ma è semplice ottenere ciò che vuoi dall'analisi bayesiana: vuoi la distribuzione posteriore delle differenze (o rapporti). Quindi, dalla distribuzione posteriore delle differenze (o rapporti), puoi fare una dichiarazione di probabilità diretta come questa:

"Le differenze più credibili del 95% rientrano tra [limite HDI 95% basso] e [limite HDI 95% alto]" (qui sto usando l'intervallo di densità più alta del 95% [HDI] come intervallo credibile, e perché sono definizione i valori dei parametri con la densità più elevata vengono definiti "più credibili")

Un pubblico di riviste mediche comprenderebbe in modo intuitivo e corretto tale affermazione, poiché è ciò che il pubblico pensa in genere sia il significato di un intervallo di confidenza del frequentatore (anche se non si tratta di un intervallo di confidenza del frequentatore).

Come si ottengono le differenze (o i rapporti) da Stan o JAGS? Solo mediante post-elaborazione della catena MCMC completata. Ad ogni passo della catena, calcolare le differenze (o i rapporti) rilevanti, quindi esaminare la distribuzione posteriore delle differenze (o rapporti). Esempi sono riportati in DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ per MCMC generalmente nella Figura 7.9 (p. 177), per JAGS nella Figura 8.6 (p. 211) e per Stan nella Sezione 16.3 (p 468), ecc.!

2) Se sei obbligato dalla tradizione a fare una dichiarazione sul rifiuto o meno di una differenza di zero, hai due opzioni bayesiane.

2A) Un'opzione è fare dichiarazioni di probabilità riguardanti intervalli vicini allo zero e la loro relazione con l'HDI. Per questo, imposti una regione di equivalenza pratica (ROPE) intorno allo zero, che è semplicemente una soglia di decisione appropriata per il tuo dominio applicato --- quanto grande è una differenza banalmente piccola? La definizione di tali limiti viene eseguita di routine nei test clinici di non inferiorità, ad esempio. Se hai una misura di "dimensione dell'effetto" nel tuo campo, potrebbero esserci delle convenzioni per la dimensione dell'effetto "piccola" e i limiti ROPE potrebbero essere, diciamo, metà di un piccolo effetto. Quindi puoi fare dichiarazioni di probabilità dirette come queste:

"Solo l'1,2% della distribuzione posteriore delle differenze è praticamente equivalente a zero"

e

"Le differenze più credibili del 95% non sono praticamente equivalenti a zero (vale a dire, il 95% di HDI e ROPE non si sovrappongono) e pertanto rifiutiamo zero." (notare la distinzione tra la dichiarazione di probabilità dalla distribuzione posteriore, rispetto alla decisione successiva basata su tale affermazione)

Puoi anche accettare una differenza di zero, a fini pratici, se i valori più credibili del 95% sono praticamente equivalenti a zero.

2B) Una seconda opzione bayesiana è la verifica dell'ipotesi nulla bayesiana. (Si noti che il metodo sopra non erachiamato "test di ipotesi"!) Il test di ipotesi nullo bayesiano fa un confronto del modello bayesiano di una distribuzione precedente che presume che la differenza possa essere zero solo rispetto a una distribuzione precedente alternativa che presume che la differenza possa essere una gamma diffusa di possibilità. Il risultato di un simile confronto di modello (di solito) dipende fortemente dalla particolare scelta della distribuzione alternativa, e quindi deve essere fatta un'attenta giustificazione per la scelta dell'alternativa precedente. È meglio usare priori almeno lievemente informati sia per il nullo che per l'alternativa, in modo che il confronto tra modelli sia veramente significativo. Si noti che il confronto tra modelli fornisce informazioni diverse rispetto alla stima delle differenze tra i gruppi poiché il confronto tra modelli sta affrontando una domanda diversa. Pertanto, anche con un confronto tra modelli,

Potrebbero esserci modi per fare un test di ipotesi nulla bayesiano dall'output di Stan / JAGS / MCMC, ma non lo so in questo caso. Ad esempio, si potrebbe provare un'approssimazione di Savage-Dickey a un fattore di Bayes, ma ciò farebbe affidamento sulla conoscenza della densità precedente sulle differenze, che richiederebbe qualche analisi matematica o qualche ulteriore approssimazione MCMC dalla precedente.

I due metodi per decidere i valori null sono discussi in Ch. 12 di DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ . Ma non voglio davvero che questa discussione venga seguita da un dibattito sul modo "corretto" di valutare valori nulli; sono solo diversi e forniscono informazioni diverse. Il punto principale della mia risposta è il punto 1, sopra: Guarda la distribuzione posteriore delle differenze tra i gruppi.


3
Benvenuti nel nostro sito! È fantastico che tu faccia parte della nostra comunità!
Tim

Se desideri unire il tuo account con questo stats.stackexchange.com/users/16592 (che sembra essere anche tuo), puoi farlo automaticamente tramite stats.stackexchange.com/contact .
ameba dice di reintegrare Monica il

Puoi fare il test di ipotesi descritto qui usando brms. Vedi: github.com/paul-buerkner/brms
bjw,

3

A seguito dell'etichetta SO, questo avrebbe dovuto essere scritto come un commento a @ John K. Kruschke, ma i commenti più lunghi sono difficili da strutturare. Scusa.

  • @John K. Kruschke scrive: Solo per post-elaborazione della catena MCMC completata ...

lower_CredIe upper_CredInel post originale sono stati calcolati come hai menzionato dalle catene MCMC complete e sono solo leggermente riformattati per un migliore confronto con l' lmeoutput. Mentre favorisci l'HDI, questi sono semplici quantili; con il posteriore simmetrico in questo esempio non fa una grande differenza.

  • CORDA e dimensioni dell'effetto

Ho visto domande ai comitati etici in cui il potere statistico è stato calcolato senza affermare l'assunto sulla dimensione dell'effetto. Anche nel caso in cui non sia possibile definire un "effetto clinicamente rilevante", è difficile spiegare il concetto ai ricercatori medici. È un po 'più facile per gli studi di non inferiorità, ma questi non sono così spesso oggetto di uno studio.

Quindi sono abbastanza sicuro che l'introduzione di ROPES non sarà accettabile - un altro presupposto, le persone non possono tenere a mente più di un numero. I fattori di Bayes potrebbero funzionare, perché prima c'è solo un numero da portare a casa come i valori p.

  • Priori

Sono sorpreso che né @John K. Kruschke né @Ben Goodrich del team di Stan menzionino i priori; la maggior parte degli articoli sull'argomento richiede una discussione dettagliata della sensibilità precedente durante la presentazione dei risultati.

Sarebbe bello se nella prossima edizione del tuo libro - si spera con Stan - potessi aggiungere le caselle "Come pubblicarlo (in un documento non statistico) con 100 parole" per esempi selezionati. Quando vorrei prendere il tuo capitolo 23.1 per parola, un tipico documento di ricerca medica sarebbe lungo 100 pagine e cifre ...


* Il punto principale era esaminare la distribuzione posteriore delle differenze (tra gruppi, tra combinazioni di gruppi). Questo è ciò che richiede la post-elaborazione della catena MCMC.
John K. Kruschke,

* ROPE: "Sei abbastanza sicuro che le ROPE non saranno accettabili" ed "è difficile spiegare il concetto ai ricercatori medici". Non vedo quindi come i fattori di Bayes saranno più facili da spiegare o da accettare, dato che un fattore di Bayes richiede una spiegazione e una giustificazione ancora più elaborate di una determinata soglia BF per la decisione !! Mi sembra che tu abbia supposto che il tuo pubblico sia permanentemente ossificato in un quadro frequentista; in tal caso, utilizza le statistiche frequentist o invia il tuo lavoro a un diario più illuminato.
John K. Kruschke,

* Esagerate severamente riguardo alle raccomandazioni di Ch 23.1, che in effetti possono essere affrontate in modo conciso in una piccola quantità di testo, specialmente per modelli semplici come quelli qui utilizzati. Continua nel prossimo commento ...
John K. Kruschke,

1
(i) Motiva l'uso del bayesiano - ti dà distribuzioni posteriori riccamente informative. (ii) Spiegare il modello e i suoi parametri, che è facile in questo caso. (iii) Giustifica il precedente - ancora una volta banale in questo caso solo per dire che hai usato priori diffusi che non hanno sostanzialmente alcun impatto sul posteriore. (Ma NON se si utilizzano i fattori Bayes, per i quali il precedente è cruciale.) (Iv) Riporta la scorrevolezza della catena MCMC - banale dire che ESS era di circa 10.000 per tutti i parametri e le differenze. Continua nel prossimo commento ...
John K. Kruschke,

1
(v) Interpretazione del posteriore: basta indicare la tendenza centrale (es. modalità) del posteriore e il suo HDI al 95%, per ogni differenza di interesse. Non è breve come un tweet, ma è solo un paio di paragrafi.
John K. Kruschke,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.