Comprensione di Gelman & Carlin "Beyond Power Calc Calcoli: ..." (2014)


11

Sto leggendo Gelman & Carlin "Oltre i calcoli di potenza: valutazione degli errori di tipo S (segno) e di tipo M (magnitudine)" (2014). Sto cercando di capire l'idea principale, il punto di partenza principale, ma sono confuso. Qualcuno potrebbe aiutarmi a distillare l'essenza?

Il documento va in questo modo (se l'ho capito bene).

  • Gli studi statistici in psicologia sono spesso afflitti da piccoli campioni.
  • In base a un risultato statisticamente significativo in un dato studio,
    (1) è probabile che la dimensione reale dell'effetto sia gravemente sopravvalutata e
    (2) il segno dell'effetto potrebbe essere opposto con alta probabilità, a meno che la dimensione del campione non sia sufficientemente grande.
  • Quanto sopra è mostrato usando un'ipotesi precedente della dimensione dell'effetto nella popolazione e quell'effetto è generalmente considerato piccolo.

Il mio primo problema è, perché condizionare il risultato statisticamente significativo? È per riflettere la tendenza alla pubblicazione? Ma questo non sembra essere il caso. Allora perché, allora?

Il mio secondo problema è che, se studio da solo, dovrei trattare i miei risultati in modo diverso da come sono abituato (faccio statistiche frequentiste, non ho molta familiarità con Bayesiano)? Ad esempio, vorrei prendere un campione di dati, stimare un modello e registrare una stima puntuale per alcuni effetti di interesse e una confidenza attorno ad esso. Ora dovrei diffidare del mio risultato? O dovrei diffidare se è statisticamente significativo? Come cambia un dato precedente?

Qual è il principale takeaway (1) per un "produttore" di ricerca statistica e (2) per un lettore di documenti statistici applicati?

Riferimenti:

PS Penso che il nuovo elemento per me qui sia l'inclusione di informazioni precedenti, che non sono sicuro di come trattare (proveniente dal paradigma frequentista).


Come puoi vedere, sono piuttosto confuso, quindi le mie domande potrebbero non sembrare coerenti o sensate. Apprezzerò qualsiasi suggerimento per dare più senso al documento che sto studiando. Spero di poter porre domande più sensate man mano che la mia comprensione della questione avanza.
Richard Hardy,

7
Nota che hanno posto la premessa del documento all'inizio: " Hai appena finito di eseguire un esperimento. Analizzi i risultati e trovi un effetto significativo . Successo! Ma aspetta: quante informazioni ti dà davvero il tuo studio ? Quanto dovresti fidarti dei tuoi risultati? "--- stanno descrivendo cosa succede / cosa è implicito quando hai un significato. Usano queste conseguenze per motivare l'attenzione su cose diverse dal significato.
Glen_b -Restate Monica

Dovresti diffidare del tuo risultato - sì - se esegui più test di significatività e filtra tutto ciò che risulta essere insignificante; è una specie di "pregiudizio per la pubblicazione", ma può accadere senza pubblicazioni, semplicemente all'interno del laboratorio di una persona nel corso di diversi mesi o anni di esperimenti. Tutti fanno qualcosa del genere fino a un certo punto, quindi l'interesse pedagogico nel condizionare risultati significativi.
ameba dice di reintegrare Monica il

@amoeba, OK, ma se (ipoteticamente) valuto solo un modello e mi concentro su un solo parametro prespecificato (quindi assolutamente nessun test multiplo), il risultato di Gelman & Carlin cambierebbe qualcosa? Che ne dici di includere le informazioni precedenti?
Richard Hardy,

2
Sono necessarie informazioni preliminari per valutare il tasso di falsa scoperta; la consueta logica del test di significatività garantisce solo il tasso di errore di tipo I P (signif | null). Per stimare P (null | signif) è necessario invocare alcuni precedenti. Questo è quello che Gelman e Carlin stanno facendo qui. Se si stima solo un modello, il "tasso di falsa scoperta" non ha senso (nell'approccio frequentista); ma di solito le persone stimano molti modelli :-) o almeno leggono letteratura che consiste in altre persone che stimano molti modelli.
ameba dice di reintegrare Monica il

Risposte:


5

Ho riletto il documento e questa volta sembra molto più chiaro. Ora anche i commenti utili di @Glen_b e @amoeba hanno molto senso.

L'intera discussione si basa su un punto di partenza per ottenere un risultato statisticamente significativo. A seconda di ciò, abbiamo la dimensione stimata dell'effetto distribuita in modo diverso rispetto a quanto sarebbe assente il condizionamento: L'articolo sembra mirare a due problemi:

Pβ^(|β^ is statistically significant)Pβ^().
  1. Distorsione della pubblicazione (vengono pubblicati solo risultati statisticamente significativi) e
  2. Distorsione nei calcoli di progettazione per nuovi studi (prendendo come riferimento parametri di dimensioni attese troppo elevate).

La buona notizia è che entrambi i problemi possono essere affrontati in modo soddisfacente.

  1. βplausibleβ^s.e.(β^)tPβ^()
  2. βplausible

Per rispondere brevemente alle mie due domande:

  1. Riguarda il pregiudizio della pubblicazione, sebbene non in un senso di dragaggio dei dati ma nel contesto di studi poco potenti; là è probabile che un risultato statisticamente significativo appartenga, per esempio, al 5% di rifiuto sotto il nulla (quindi il nulla è effettivamente vero ma ci è capitato di finire per caso lontano da esso) piuttosto che un rifiuto in alternativa (dove il null non è vero e il risultato è "autentico").
  2. Dovrei essere cauto nel rifiutare il nulla, perché il risultato statisticamente significativo è probabilmente dovuto al caso (anche se la possibilità è limitata, diciamo, al 5%) piuttosto che a un effetto "genuino" (a causa della bassa potenza) .

2
Anche questa risposta di Glen_b è molto utile.
Richard Hardy,

βplausibleD

@PatrickB., Grazie. Daremo un'occhiata più tardi. (Vedo che avevo già votato la tua risposta già prima; questo significa che l'avevo già trovata utile.)
Richard Hardy

1
Richard, ho sviluppato una funzione R per stimare l'errore di tipo "S" e di tipo "M" per un caso più generale di dimensioni dell'effetto, non quello che Gelman mostra nella distribuzione normale. Mentre leggi il documento, c'è un semplice processo di recupero da una scoperta precedentemente statisticamente significativa. Ma l'intero processo è completamente basato su un'analisi di potenza. In sostanza, per piccoli studi rumorosi la SE è grande e assumendo diverse dimensioni plausibili empiricamente verificabili empiricamente verificabili è possibile ottenere ragionevoli ...
rnorouzian

1
... stime su cosa dovrebbe includere uno studio futuro in termini di dimensioni del campione necessarie per evitare di ottenere alti tassi di tipo "S" e un alto tasso di esagerazione (ad esempio, tipo "M"). Per la cronaca, il tipo "S" di Gelman è semplicemente quel pezzo sotto la distribuzione della dimensione dell'effetto sottostante che si trova sul lato opposto dell'effetto sottostante diviso per il potere. Comunque, guarda la funzione nel caso in cui possa aiutare.
rnorouziano,

2

C'è un altro angolo di questo documento che può essere utile se stai già applicando un'analisi bayesiana e non ti interessa la parte del significato statistico.

PβVβ

p(β|V)p(V|β)p(β)

VVp(V|β)

βplun'uSioBleP(V|β)β=βplun'uSioBleVβplun'uSioBle è la vera dimensione dell'effetto.

Vβ

VV

ββplun'uSioBle

βplun'uSioBle

βplun'uSioBle

Devi stare attento che nessuno usi impropriamente questa metrica "potenza" come se fosse la stessa cosa di un calcolo di potenza frequentista, il che è abbastanza difficile. Ma tutte queste metriche sono abbastanza utili per l'analisi prospettica e retrospettiva del progetto anche quando l'intera procedura di modellizzazione è bayesiana e non farà riferimento ad alcun risultato di significatività statistica.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.