Gli studi sottodimensionati hanno aumentato la probabilità di falsi positivi?


23

Questa domanda è stata posta prima qui e qui, ma non credo che le risposte rispondano direttamente alla domanda.

Gli studi sottodimensionati hanno aumentato la probabilità di falsi positivi? Alcuni articoli di notizie fanno questa affermazione. Per esempio :

Il basso potere statistico è una cattiva notizia. Gli studi sottodimensionati hanno maggiori probabilità di perdere effetti reali e, come gruppo, hanno maggiori probabilità di includere una proporzione più elevata di falsi positivi, ovvero effetti che raggiungono un significato statistico anche se non sono reali.

A quanto ho capito, la potenza di un test può essere aumentata di:

  • aumentando la dimensione del campione
  • avere una dimensione dell'effetto maggiore
  • aumentando il livello di significatività

Supponendo che non vogliamo modificare il livello di significatività, credo che la citazione sopra si riferisca alla modifica della dimensione del campione. Tuttavia, non vedo come diminuire il campione dovrebbe aumentare il numero di falsi positivi. Per dirla semplicemente, ridurre il potere di uno studio aumenta le possibilità di falsi negativi, che risponde alla domanda:

P(mancato rigetto H0|H0 è falso)

Al contrario, i falsi positivi rispondono alla domanda:

P(rifiutare H0|H0 è vero)

Entrambe sono domande diverse perché i condizionali sono diversi. Il potere è (inversamente) correlato a falsi negativi ma non a falsi positivi. Mi sto perdendo qualcosa?


4
Non è il tasso di falsi positivi che dipende dal potere statistico, ma il "tasso di falsa scoperta": P(H0è vero|rifiutareH0)
Jake Westfall

2
Sì, questa sembra essere la corretta interpretazione della dichiarazione nell'articolo Wired.
Robert Smith,

Risposte:


30

Hai ragione nel dire che la dimensione del campione influisce sulla potenza (cioè 1 - errore di tipo II), ma non sull'errore di tipo I. È un malinteso comune che un valore p in quanto tale (interpretato correttamente) sia meno affidabile o valido quando la dimensione del campione è piccola - l'articolo molto divertente di Friston 2012 ha una visione divertente di ciò [1].

Detto questo, i problemi con studi poco potenti sono reali e la citazione è in gran parte corretta direi, solo un po 'imprecisa nella sua formulazione.

Il problema di base con studi poco potenti è che, sebbene il tasso di falsi positivi (errore di tipo I) nei test di ipotesi sia fisso, il tasso di veri positivi (potenza) diminuisce. Quindi, un risultato positivo (= significativo) ha meno probabilità di essere un vero positivo in uno studio sottodimensionato. Questa idea è espressa nel tasso di scoperta falsa [2], vedi anche [3]. Questo sembra ciò a cui si riferisce la citazione.

Un ulteriore problema spesso chiamato per quanto riguarda gli studi sottodimensionati è che portano a dimensioni degli effetti sopravvalutate. Il motivo è che a) con una potenza inferiore, le stime dei veri effetti diventeranno più variabili (stocastiche) attorno al loro valore reale e b) solo il più forte di questi effetti passerà il filtro di significatività quando la potenza è bassa. Si dovrebbe aggiungere tuttavia che si tratta di un problema di segnalazione che potrebbe essere facilmente risolto discutendo e riportando tutti e non solo gli effetti significativi.

Infine, un'importante questione pratica con studi scarsamente potenziati è che la bassa potenza aumenta i problemi statistici (p. Es. Pregiudizi degli stimatori) e la tentazione di giocare con variabili e simili tattiche di hacking. L'uso di questi "gradi di libertà dei ricercatori" è più efficace quando il potere è basso e QUESTO può aumentare l'errore di tipo I dopo tutto, vedi, ad esempio, [4].

Per tutti questi motivi, sarei quindi davvero scettico riguardo a uno studio sottodimensionato.

[1] Friston, K. (2012) Dieci regole ironiche per i revisori non statistici. NeuroImage, 61, 1300-1310.

[2] https://en.wikipedia.org/wiki/False_discovery_rate

[3] Pulsante, KS; Ioannidis, JPA; Mokrysz, C .; Nosek, BA; Flint, J .; Robinson, ESJ e Munafo, MR (2013) Interruzione dell'alimentazione: perché le dimensioni ridotte del campione minano l'affidabilità delle neuroscienze. Nat. Rev. Neurosci., 14, 365-376

[4] Simmons, JP; Nelson, LD e Simonsohn, U. (2011) Psicologia dei falsi positivi: la flessibilità non divulgata nella raccolta e nell'analisi dei dati consente di presentare qualsiasi cosa come significativa. Psychol Sci., 22, 1359-1366.


Grazie. Riferimenti eccellenti. Per completezza, [1] può essere trovato qui e [3] è disponibile qui . Quando parli del falso tasso di scoperta, sei sicuro che sia il concetto giusto? Basato su [3], forse intendevi il valore predittivo positivo (PPV) in cui gli studi sottodimensionati hanno un PPV più basso (vale a dire, i veri positivi non sono così frequenti come dovrebbero essere in uno studio ad alta potenza) Sembra che il tasso di scoperta falso sia il complemento di PPV.
Robert Smith,

Per come lo capisco, questi concetti sono identici, PPV = 1-FDR. Preferisco l'uso di FDR perché trovo la parola intuitivamente meglio comprensibile.
Florian Hartig,


2
Tal Yarkoni sottolinea tutto il male cose circa l'articolo Friston qui .
jona,

1
@jona - Penso che Tal Yarkoni sollevi alcuni punti positivi nel suo post sul blog. Immagino che il riassunto di una frase sia "il basso consumo è un problema", che è esattamente quello che dico sopra. Trovo ancora divertente la caricatura di Friston dei commenti dei revisori, perché capita che i revisori "trovino la dimensione del campione troppo bassa" senza una argomentazione convincente che implichi di aver calcolato la potenza.
Florian Hartig,

6

A seconda di come lo vedi, un basso consumo può aumentare i tassi di falsi positivi in ​​determinati scenari.

Considera quanto segue: un ricercatore verifica un trattamento. Se il test ritorna insignificante, lo abbandonano e passano al trattamento successivo. Se il test torna significativo, lo pubblicano. Consideriamo anche che il ricercatore testerà alcuni trattamenti che funzionano e altri che non lo fanno. Se il ricercatore ha un alto potere (ovviamente riferendosi al caso in cui sta testando un trattamento che funziona), è molto probabile che si fermino una volta testato un trattamento efficace. D'altra parte, a bassa potenza, è probabile che manchino il vero effetto del trattamento e passino ad altri trattamenti. Più trattamenti nulli testano, più è probabile che commettano un errore di tipo I (questo ricercatore non tiene conto di confronti multipli). Nel caso di bassa potenza, si prevede che testeranno molti altri trattamenti null,

Potresti dire "bene, questo è solo un ricercatore che abusa di confronti multipli!". Bene, questo può essere vero, ma è anche così che molte ricerche vengono fatte in questi giorni. Proprio per questi motivi, personalmente ho poca fiducia nel lavoro pubblicato a meno che non abbia una dimensione del campione abbastanza grande da non consentire al ricercatore di ripetere lo stesso esperimento un gran numero di volte.


1
Grazie. Anche ignorando il caso di confronti multipli (senza correzioni adeguate), penso che stai descrivendo un'altra istanza di PPV come descritto qui . Non riesco a incollare il paragrafo ma inizia con ( For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null)
Robert Smith l'

1
Ah sì, questo descrive molto attentamente ciò a cui mi riferivo. La più piccola distinzione è che sto dicendo "In una data procedura sperimentale , avere una bassa potenza individuale ad ogni test di un vero effetto aumenta le probabilità di usare un errore di tipo I in tutta la nostra procedura sperimentale ". Ciò è ovviamente diverso dall'aumentare il tasso di errore di tipo I in ciascun test statistico. Inoltre, è solo nel senso più tecnico dei sensi diverso dal PPV. Ma è l'unico modo in cui l'affermazione dei media "bassa potenza aumenta gli errori di tipo I" ha senso (e penso che abbia molto senso).
Cliff AB,

4

La bassa potenza non può influire sul tasso di errore di tipo 1, ma potrebbe influire sulla percentuale di risultati pubblicati che sono errori di tipo 1.

Il motivo è che la bassa potenza riduce le possibilità di un corretto rifiuto di H0 (errore di tipo 2) ma non le possibilità di un falso rifiuto di H0 (errore di tipo 1).

Supponiamo per un secondo che ci siano due letterature ... una condotta con una potenza molto bassa - quasi zero - e l'altra condotta con una potenza adeguata. In entrambe le letterature, puoi supporre che quando H0 è falso, otterrai comunque falsi positivi alcune volte (ad esempio, 5% per alpha = .05). Supponendo che i ricercatori non siano sempre corretti nelle loro ipotesi, possiamo supporre che entrambe le letterature debbano avere un NUMERO simile di errori di tipo 1, buona potenza o meno. Questo perché il tasso di errori di tipo 1 non è influenzato dal potere, come altri hanno già detto.

Tuttavia, nella letteratura con LOW power, avresti anche molti errori di tipo 2. In altre parole, la letteratura a bassa potenza dovrebbe mancare di correggere i rigetti di H0, rendendo gli errori di tipo 1 una proporzione maggiore della letteratura. Nella letteratura ad alta potenza, dovresti avere una combinazione di rifiuti corretti e non corretti di H0.

Quindi, la bassa potenza aumenta gli errori di tipo 1? No. Tuttavia, rende più difficile trovare effetti reali, rendendo gli errori di tipo 1 una proporzione maggiore di risultati pubblicati.


1
Grazie. E il PPV? Nel documento a cui fa riferimento Florian Hartig, si afferma che, dato un errore di tipo I, minore è la potenza, minore è il PPV. Se il PPV è inferiore, il che significa che il numero di scoperte dichiarate vere è inferiore, il numero di scoperte dichiarate false (falsi positivi) dovrebbe aumentare.
Robert Smith,

0

Oltre alla risposta degli altri, uno studio è generalmente sottodimensionato quando la dimensione del campione è piccola. Esistono molti test che sono solo asintoticamente validi e troppo ottimisti o conservativi per i piccoli n.

Altri test sono validi solo per campioni di piccole dimensioni se vengono soddisfatte determinate condizioni, ma diventano più robusti con campioni di grandi dimensioni (ad esempio test t).

In entrambi i casi, la dimensione ridotta del campione e l'assunzione non soddisfatta possono determinare un aumento del tasso di errore di tipo I. Entrambe queste situazioni si verificano abbastanza spesso che considero la vera risposta alla tua domanda: non in teoria ma in pratica.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.