Cosa significa che uno studio è sovraccarico?

11

La mia impressione è che ciò significhi che le dimensioni del tuo campione sono così grandi che hai il potere di rilevare dimensioni di effetto minuscole. Queste dimensioni dell'effetto sono forse così piccole che hanno maggiori probabilità di derivare da lievi distorsioni nel processo di campionamento rispetto a una connessione causale (non necessariamente diretta) tra le variabili.

È questa l'intuizione corretta? In tal caso, non vedo quale sia il grosso problema, fintanto che i risultati sono interpretati in quella luce e tu controlli manualmente e vedi se la dimensione stimata dell'effetto è abbastanza grande da essere "significativa" o no.

Mi sto perdendo qualcosa? C'è una migliore raccomandazione su cosa fare in questo scenario?

— Frank Barry
fonte

Sembra esattamente la mia comprensione intuitiva di questo termine.

— Henrik

11

Penso che la tua interpretazione sia errata.

Dici "Queste dimensioni di effetto sono forse così piccole come sono probabilmente il risultato di lievi distorsioni nel processo di campionamento rispetto a una connessione causale (non necessariamente diretta) tra le variabili" che sembra implicare che il valore P in un "over-powered" lo studio non è la stessa cosa di un valore P di uno studio "correttamente" alimentato. Questo è sbagliato. In entrambi i casi il valore P è la probabilità di ottenere dati estremi quanto quelli osservati, o più estremi, se l'ipotesi nulla è vera.

Se si preferisce l'approccio Neyman-Pearson, il tasso di errori falsi positivi ottenuti dallo studio "sovralimentato" è lo stesso di quello di uno studio "correttamente" se si utilizza lo stesso valore alfa per entrambi.

La differenza nell'interpretazione che è necessaria è che esiste una relazione diversa tra significato statistico e significato scientifico per gli studi troppo potenti. In effetti, lo studio sovraccarico darà una grande probabilità di ottenere significato anche se l'effetto è, come dici tu, minuscolo, e quindi di dubbia importanza.

Finché i risultati di uno studio "sovralimentato" sono interpretati in modo appropriato (e gli intervalli di confidenza per la dimensione dell'effetto aiutano tale interpretazione) non vi è alcun problema statistico con uno studio "sovralimentato". Alla luce di ciò, gli unici criteri in base ai quali uno studio può effettivamente essere sovralimentato sono le questioni etiche e di allocazione delle risorse sollevate in altre risposte.

— Michael Lew
fonte

Grazie, questo è molto istruttivo. Capisco che la definizione del valore p non cambia. Certamente da un punto di vista statistico, il tasso di errori di tipo I non aumenta.

— Frank Barry,

1

Per definizione, stiamo fissando il tasso di errore di tipo I nell'impostazione della soglia del valore p. Tuttavia, sembra che la differenza tra il significato "statistico" e "pratico" sia il problema qui. Quando la dimensione del campione è in grado di rilevare differenze molto più fini della dimensione prevista dell'effetto, una differenza correttamente statisticamente distinta non è praticamente significativa (e dal punto di vista dell '"utente finale" questo è effettivamente un "falso positivo" anche se non è statistico). Tuttavia, come dici tu, questo inizia a uscire dal regno delle statistiche.

— Frank Barry,

1

cioè penso di essere d'accordo - "la differenza nell'interpretazione che è necessaria è che esiste una relazione diversa tra significato statistico e significato scientifico"

— Frank Barry

4

Negli studi di ricerca medica può non essere etico se reclutano troppi pazienti. Ad esempio, se l'obiettivo è decidere quale trattamento è meglio, non è più etico trattare i pazienti con il trattamento peggiore dopo che è stato stabilito che è inferiore. L'aumento della dimensione del campione, ovviamente, ti darebbe una stima più accurata della dimensione dell'effetto, ma potresti dover fermarti molto prima che appaiano gli effetti di "lievi pregiudizi nel processo di campionamento".

Potrebbe anche non essere etico spendere soldi pubblici per ricerche sufficientemente confermate.

— GaBorgulya
fonte

1

Tutto ciò che hai detto ha senso (anche se non so a quale "grosso problema" ti riferisci), e esp. come il tuo punto sulle dimensioni dell'effetto rispetto al significato statistico. Un'altra considerazione è che alcuni studi richiedono l'assegnazione di risorse scarse per ottenere la partecipazione di ciascun caso, e quindi non si vorrebbe esagerare.

— rolando2
fonte

Siamo spiacenti, "un grosso problema" è troppo di un commento editoriale. La questione se si tratti di un "affare più grande" di quello che sto immaginando di essere è fondamentalmente una questione se ci sono ulteriori considerazioni di cui potrei essere ignorante.

— Frank Barry,

0

La mia esperienza proviene da esperimenti A / B online, in cui il problema è di solito sottodimensionato negli studi o nella misurazione delle cose sbagliate. Ma mi sembra che uno studio sopraffatto produca intervalli di confidenza più ristretti rispetto a studi comparabili, valori p inferiori e possibilmente varianza diversa. Immagino che questo possa rendere più difficile il confronto di studi simili. Ad esempio, se ripetessi uno studio sopraffatto usando la potenza adeguata, il mio valore p sarebbe più alto anche se avessi replicato esattamente l'effetto. L'aumento della dimensione del campione può persino compensare la variabilità o introdurre la variabilità se ci sono valori anomali che potrebbero avere maggiori probabilità di presentarsi in un campione più ampio.

Inoltre, le mie simulazioni mostrano che effetti diversi da quelli a cui sei interessato potrebbero diventare significativi con un campione più ampio. Quindi, sebbene il valore p ti dica correttamente la probabilità che i tuoi risultati siano reali, potrebbero essere reali per motivi diversi da quello che pensi ad esempio, una combinazione di possibilità, alcuni effetti transitori per i quali non hai controllato e forse altri effetto più piccolo che hai introdotto senza accorgertene. Se lo studio è un po 'sopraffatto, il rischio è basso. Il problema è spesso che è difficile conoscere la potenza adeguata, ad esempio, se le metriche di base e l'effetto obiettivo minimo sono ipotesi o risultano diverse dal previsto.

Mi sono anche imbattuto in un articolo in cui si sostiene che un campione troppo ampio può rendere un test di bontà di adattamento troppo sensibile a deviazioni insignificanti, portando a risultati potenzialmente controintuitivi.

Detto questo, credo che sia meglio sbagliare dalla parte dell'alta piuttosto che della bassa potenza.

— Vlad
fonte