40.000 articoli di neuroscienze potrebbero essere sbagliati


67

Ho visto questo articolo sull'Economist su un documento apparentemente devastante [1] che mise in dubbio "qualcosa come 40.000 studi pubblicati [fMRI]". L'errore, dicono, è a causa di "ipotesi statistiche errate". Ho letto il documento e vedo che è in parte un problema con più correzioni di confronto, ma non sono un esperto di risonanza magnetica e trovo difficile seguirlo.

Quali sono i presupposti errati di cui parlano gli autori ? Perché vengono fatte queste ipotesi? Quali sono i modi per fare queste assunzioni?

Una parte posteriore del calcolo della busta dice che 40.000 articoli di risonanza magnetica sono oltre un miliardo di dollari in finanziamenti (stipendio per studenti laureati, costi operativi, ecc.).


[1] Eklund et al., Fallimento del cluster: perché le inferenze della fMRI per l'estensione spaziale hanno gonfiato i tassi di falsi positivi, PNAS 2016


17
Vedi anche l'articolo sull'FMRI del salmone morto. wired.com/2009/09/fmrisalmon
Ripristina Monica il

1
È una linea davvero sottile, specialmente nello studio delle neuropatologie, perché puoi limitare totalmente i falsi positivi quanto vuoi, ma nel compromesso finisci con un'incidenza enorme di falsi negativi.
Firebug,

10
C'è una piccola differenza tra i due: il documento sul salmone è una bella parabola sull'importanza della correzione di confronti multipli, che tutti avrebbero dovuto già fare. Al contrario, la questione PNAS morde le persone che stavano cercando di fare "la cosa giusta", ma la correzione stessa era un po 'traballante.
Matt Krause,

4
Penso che questa sia una grande domanda da porre perché arriva al cuore di molteplici correzioni di paragoni e ipotesi chiave nel condurre questo tipo di analisi nel contesto di una comune vena di ricerca. Tuttavia, l'unica domanda nel testo è "qualcuno con più conoscenza di quanti ne voglia commentare?" che è in qualche modo ampio e non specifico. Se questo potesse essere focalizzato su un particolare problema statistico nell'ambito del centro assistenza, sarebbe più adatto a questo forum.
Ripristina Monica il

2
Grazie. Ho modificato la domanda per renderla più specifica. Fammi sapere se dovrei modificarlo di più.
R Greg Stacey,

Risposte:


69

Sulla cifra 40000

Le notizie sono davvero sensazionaliste, ma il giornale è davvero ben fondato. Discussioni infuriate per giorni nel mio laboratorio, tutto sommato una critica davvero necessaria che rende i ricercatori introspettivi il loro lavoro. Raccomando la lettura del seguente commento di Thomas Nichols , uno degli autori del documento "Il fallimento del cluster: perché le inferenze della fMRI per estensione spaziale hanno gonfiato i tassi di falsi positivi" (scusate per la lunga citazione).

Tuttavia, c'è un numero di cui mi pento: 40.000. Nel tentativo di fare riferimento all'importanza della disciplina fMRI, abbiamo usato una stima dell'intera letteratura fMRI come numero di studi influenzati dai nostri risultati. A nostra difesa, abbiamo riscontrato problemi con l'inferenza sulla dimensione dei cluster in generale (grave per P = 0,01 CDT, distorta per P = 0,001), il metodo di inferenza dominante, suggerendo che la maggior parte della letteratura era interessata. Il numero nella dichiarazione di impatto, tuttavia, è stato raccolto dalla stampa popolare e alimentato da un piccolo twitterstorm. Quindi, sento il mio dovere fare almeno una stima approssimativa di "Quanti articoli influisce sul nostro lavoro?". Non sono un bibliometrico, e questo è davvero un esercizio approssimativo e pronto, ma si spera che dia un senso all'ordine di grandezza del problema.

Il codice di analisi (in Matlab) è riportato di seguito, ma qui c'è il magro: basato su alcuni calcoli probabilistici ragionevoli, ma forse su fragili campioni di letteratura, stimo che circa 15.000 articoli utilizzino l'inferenza delle dimensioni dei cluster con correzione per test multipli; di questi, circa 3.500 usano un CDT di P = 0,01. 3.500 è circa il 9% dell'intera letteratura, o forse più utilmente, l'11% di articoli contenenti dati originali. (Naturalmente alcuni di questi 15.000 o 3.500 potrebbero usare l'inferenza non parametrica, ma sfortunatamente è raro per la fMRI - al contrario, è lo strumento di inferenza predefinito per le analisi strutturali VBM / DTI in FSL).

Francamente ho pensato che questo numero sarebbe stato più alto, ma non ho realizzato la grande proporzione di studi che non hanno mai usato alcun tipo di correzione multipla dei test. (Non si possono gonfiare i significati corretti se non si corregge!) . Questi calcoli suggeriscono che 13.000 articoli non hanno utilizzato correzioni multiple per i test. Naturalmente alcuni di questi potrebbero utilizzare regioni di interesse o analisi di sotto-volume, ma sono pochi (cioè i risultati dello stile di sperimentazione clinica) che non hanno assolutamente alcuna molteplicità. Il nostro documento non riguarda direttamente questo gruppo, ma per le pubblicazioni che hanno utilizzato la correzione di test multipli folk, P <0,001 & k> 10, il nostro documento mostra che questo approccio ha tassi di errore a livello familiare ben superiori al 50%.

Quindi, stiamo dicendo che 3.500 articoli sono "sbagliati"? Dipende. I nostri risultati suggeriscono che i risultati di CDT P = 0,01 hanno valori di P gonfiati, ma ogni studio deve essere esaminato ... se gli effetti sono davvero forti, probabilmente non importa se i valori di P sono distorti e l'inferenza scientifica rimarrà invariata. Ma se gli effetti sono davvero deboli, i risultati potrebbero effettivamente essere coerenti con il rumore . E che dire di quei 13.000 articoli senza correzione, particolarmente comuni nella letteratura precedente? No, non dovrebbero nemmeno essere scartati a dismisura, ma per quei lavori è necessario un occhio particolarmente stanco, specialmente quando li si confronta con nuovi riferimenti con standard metodologici migliorati.

Include anche questa tabella alla fine:

        AFNI     BV    FSL    SPM   OTHERS
        ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2    

Fondamentalmente, SPM (Statistical Parametric Mapping, una cassetta degli attrezzi per Matlab) è lo strumento più ampiamente utilizzato per gli studi di neuroscienza fMRI. Se controlli la carta, vedrai che usare un CDT di P = 0,001 (lo standard) per i cluster in SPM fornisce quasi il tasso di errore atteso per la famiglia.

Gli autori hanno persino compilato un errore a causa della formulazione dell'articolo:

Data la diffusa interpretazione errata del nostro documento, Eklund et al., Cluster Failure: Perché le inferenze della fMRI per estensione spaziale hanno gonfiato i tassi di falsi positivi, abbiamo presentato un errore all'ufficio editoriale del PNAS:

Errata for Eklund et al., Cluster failure: perché le inferenze di fMRI per estensione spaziale hanno gonfiato i tassi di falsi positivi. Eklund, Anders; Nichols, Thomas E; Knutsson, Hans

Due frasi erano scritte male e potevano facilmente essere fraintese come sopravvalutando i nostri risultati.

L'ultima frase della dichiarazione di significatività dovrebbe essere la seguente: "Questi risultati mettono in dubbio la validità di una serie di studi di RMF e possono avere un grande impatto sull'interpretazione di risultati di neuroimaging debolmente significativi."

La prima frase dopo il titolo "Il futuro della risonanza magnetica" avrebbe dovuto leggere: "A causa delle deplorevoli pratiche di archiviazione e condivisione dei dati è improbabile che le analisi problematiche possano essere rifatte".

Questi sostituiscono le due frasi che implicano erroneamente che il nostro lavoro ha influenzato tutte le 40.000 pubblicazioni (vedi Bibliometria di Cluster Inference per un ospite di quanto della letteratura sia potenzialmente interessata).

Dopo aver inizialmente rifiutato l'errata, sulla base del fatto che correggeva l'interpretazione e non i fatti, PNAS ha accettato di pubblicarlo come l'abbiamo presentato sopra.


Sul cosiddetto bug

Alcune notizie hanno anche menzionato un bug come causa dell'invalidità degli studi. In effetti, uno degli strumenti di AFNI stava minando le inferenze , e questo è stato risolto dopo che la prestampa era stata pubblicata in arXiv .


Inferenza statistica utilizzata nel neuroimaging funzionale

5%

Usando un modello lineare generalizzato (GLM) identifichi quali serie temporali del segnale voxel sono correlate al design del paradigma del tuo esperimento (di solito una serie temporale booleana contorta con una funzione di risposta emodinamica canonica, ma esistono variazioni).

Quindi questo GLM ti ha dato quanto ogni serie temporale voxel assomiglia all'attività. Ora, supponiamo di avere due gruppi di individui: pazienti e controlli di solito. Il confronto dei punteggi GLM tra i gruppi potrebbe essere usato per mostrare come la condizione dei gruppi modula il loro modello di "attivazione" cerebrale.

Il confronto tra i gruppi in termini di voxel è fattibile, ma a causa della funzione di diffusione dei punti inerente all'apparecchiatura oltre a una fase di preelaborazione regolare, non è ragionevole aspettarsi che i voxel trasportino individualmente tutte le informazioni. La differenza nei voxel tra i gruppi dovrebbe essere, in effetti, diffusa sui voxel vicini.

Pertanto, viene eseguito un confronto a livello di cluster , ovvero vengono considerate solo le differenze tra i gruppi che si formano in cluster. Questa soglia di estensione del cluster è la tecnica di correzione del confronto multiplo più popolare negli studi di fMRI. Il problema sta qui.

SPM e FSL dipendono dalla teoria del campo casuale gaussiano (RFT) per l'inferenza voxelwise e clusterwise corretta da FWE. Tuttavia, l'inferenza clusterwise RFT dipende da due ipotesi aggiuntive. Il primo presupposto è che la levigatezza spaziale del segnale fMRI sia costante sul cervello e il secondo presupposto è che la funzione di autocorrelazione spaziale ha una forma specifica (un esponenziale quadrato) (30)

Almeno in SPM devi impostare una frequenza FWE nominale e anche una soglia di definizione del cluster (CDT). Fondamentalmente, SPM trova i voxel altamente correlati all'attività e, dopo aver raggiunto il limite con il CDT, quelli vicini vengono aggregati in cluster. Le dimensioni di questi cluster vengono confrontate con l'estensione prevista del cluster da Random Field Theory (RFT), dato l'insieme FWER [ 1 ].

La teoria dei campi casuali richiede che la mappa delle attività sia fluida, per essere una buona approssimazione reticolare ai campi casuali. Ciò è correlato alla quantità di livellamento applicata ai volumi. Il livellamento influisce anche sul presupposto che i residui siano normalmente distribuiti, poiché il livellamento, secondo il teorema del limite centrale, renderà i dati più gaussiani.

Gli autori hanno dimostrato in [ 1 ] che le dimensioni attese del cluster da RFT sono veramente piccole se confrontate con le soglie di estensione del cluster ottenute dal test di permutazione casuale (RPT).

α=0.05


@amoeba ha sollevato queste due domande molto pertinenti nei commenti:

(1) L'Eklund et al. Il documento PNAS parla del "livello nominale del 5%" di tutti i test (vedi ad es. Linea nera orizzontale in Fig 1). Tuttavia, CDT nella stessa figura è variabile e può essere ad esempio 0,01 e 0,001. In che modo la soglia CDT è correlata al tasso di errore nominale di tipo I? Ne sono confuso. (2) Hai visto la risposta di Karl Friston http://arxiv.org/abs/1606.08199 ? L'ho letto, ma non sono del tutto sicuro di quello che stanno dicendo: vedo correttamente che sono d'accordo con Eklund et al. ma dire che questo è un problema "ben noto"?

(1) Buona domanda. In realtà ho rivisto i miei riferimenti, vediamo se posso renderlo più chiaro ora. L'inferenza basata sul cluster si basa sull'estensione dei cluster che si formano dopo l'applicazione di una soglia primaria (il CDT, che è arbitrario ). Nell'analisi secondaria viene applicata una soglia sul numero di voxel per cluster . Questa soglia si basa sulla distribuzione prevista di estensioni di cluster nulli, che può essere stimata dalla teoria (ad es. RFT) e imposta un valore nominale nominale. Un buon riferimento è [ 2 ].

(2) Grazie per questo riferimento, non l'ho mai visto prima. Flandin & Friston sostengono Eklund et al. inferenza confermata RFT perché hanno sostanzialmente dimostrato che rispettando i suoi presupposti (riguardo a CDT e smoothing) i risultati sono imparziali. Sotto questa luce, i nuovi risultati mostrano che le diverse pratiche in letteratura tendono a distorcere l'inferenza in quanto interrompe le ipotesi di RFT.


Sui confronti multipli

È anche noto che molti studi sulle neuroscienze non sono corretti per confronti multipli, stime che vanno dal 10% al 40% della letteratura. Ma questi non sono giustificati da tale affermazione, tutti sanno che questi documenti hanno una fragile validità e possibilmente enormi percentuali di falsi positivi.


Sulla FWER superiore al 70%

Gli autori hanno anche riportato una procedura che produce FWER in eccesso del 70%. Questa procedura "folk" consiste nell'applicare il CDT per mantenere solo i cluster altamente significativi e quindi applicare un'altra soglia di estensione del cluster scelta arbitrariamente (in numero di voxel). Questo, a volte chiamato "set-inferenza", ha basi statistiche deboli e probabilmente genera i risultati meno affidabili.


Rapporti precedenti

Gli stessi autori avevano già segnalato problemi con la validità di SPM [ 1 ] su singole analisi. Ci sono anche altre opere citate in quest'area.

Curiosamente, diversi rapporti sull'analisi a livello di gruppo e individuale basati su dati simulati hanno concluso che la soglia RFT era, in effetti, prudente. Con i recenti progressi nella potenza di elaborazione, tuttavia RPT può essere eseguito molto più facilmente su dati reali, mostrando grandi discrepanze con RFT.


AGGIORNAMENTO: 18 ottobre 2017

Un commento su "Cluster Failure" è emerso lo scorso giugno [ 3 ]. Ci Mueller et al. sostengono che i risultati presentati in Eklund et al potrebbero essere dovuti a una specifica tecnica di preelaborazione delle immagini utilizzata nel loro studio. Fondamentalmente, hanno ricampionato le immagini funzionali a una risoluzione più elevata prima di renderle uniformi (anche se probabilmente non sono state eseguite da tutti i ricercatori, questa è una procedura di routine nella maggior parte dei software di analisi fMRI). Notano anche che Flandin e Friston no. In realtà ho visto Eklund parlare nello stesso mese al meeting annuale dell'Organizzazione per la mappatura del cervello umano (OHBM) a Vancouver, ma non ricordo alcun commento su questo argomento, ma sembra cruciale alla domanda.


[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M., & Knutsson, H. (2012). L'analisi parametrica di fMRI con SPM fornisce risultati validi? - Uno studio empirico di 1484 set di dati di riposo. NeuroImage, 61 (3), 565-578.

[2] Woo, CW, Krishnan, A., & Wager, TD (2014). Soglia basata sull'estensione del cluster nelle analisi di fMRI: insidie ​​e raccomandazioni. Neuroimage, 91, 412-419.

[3] Mueller, K., Lepsien, J., Möller, HE, & Lohmann, G. (2017). Commento: fallimento del cluster: perché le inferenze di fMRI per estensione spaziale hanno gonfiato i tassi di falsi positivi. Frontiers in Human Neuroscience, 11.


1
@Qroid Sì per la prima parte, il presupposto non regge (e questa è probabilmente la causa della buona esecuzione del test di permutazione non parametrico). I cluster sono gruppi di voxel, ovvero voxel vicini che mostrano lo stesso effetto. Esiste un valore p per definire un cluster (la soglia di definizione del cluster).
Firebug,

7
Questa risposta si concentra principalmente sul fatto che sia 40000 o qualche altro numero, ma penso che sarebbe più interessante per molte persone qui se potessi riassumere il dibattito principale (quali sono i cluster? Qual è il problema con le correlazioni spaziali per il test delle ipotesi? Nessuno? ci pensi davvero prima? ecc.)
Ameba dice Reinstate Monica il

1
Grazie ancora. Dopo aver brevemente guardato Woo et al. 2014, ora sono più sicuro del perché Eklund et al. è diventato PNAS e, di conseguenza, ha prodotto un tale successo nella stampa popolare e nei blog. Weren't Woo et al. dire più o meno la stessa cosa? Eccolo, proprio nel loro blob "highlights": "Un'altra trappola è l'aumento dei falsi positivi quando viene utilizzata una soglia primaria liberale".
ameba dice Reinstate Monica il

1
Vedo. Quindi la mia comprensione è che scientificamente non è successo davvero nulla ora: il problema con i CDT liberali è noto da anni, discusso in più articoli e mostrato in varie simulazioni da vari ricercatori. (Tuttavia, alcuni ricercatori hanno continuato a utilizzare CDT pericolosamente liberali.) Eklund et al. Il 2016 ha avuto la fortuna di essere pubblicato in un diario e fischio "di alto profilo"! - tutti ne parlano adesso come se fosse una rivelazione.
ameba dice Ripristina Monica il

7
@amoeba La comunità delle neuroscienze ha bisogno di un giro di vite statistico, un po 'come quello che è successo nella psicologia applicata (forse non così drastica come vietare i valori p). Molti documenti che affermano un significato statistico non hanno rigore statistico, le persone usano gli strumenti e i parametri che fanno apparire "risultati".
Firebug,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.