Sulla cifra 40000
Le notizie sono davvero sensazionaliste, ma il giornale è davvero ben fondato. Discussioni infuriate per giorni nel mio laboratorio, tutto sommato una critica davvero necessaria che rende i ricercatori introspettivi il loro lavoro. Raccomando la lettura del seguente commento di Thomas Nichols , uno degli autori del documento "Il fallimento del cluster: perché le inferenze della fMRI per estensione spaziale hanno gonfiato i tassi di falsi positivi" (scusate per la lunga citazione).
Tuttavia, c'è un numero di cui mi pento: 40.000. Nel tentativo di fare riferimento all'importanza della disciplina fMRI, abbiamo usato una stima dell'intera letteratura fMRI come numero di studi influenzati dai nostri risultati. A nostra difesa, abbiamo riscontrato problemi con l'inferenza sulla dimensione dei cluster in generale (grave per P = 0,01 CDT, distorta per P = 0,001), il metodo di inferenza dominante, suggerendo che la maggior parte della letteratura era interessata. Il numero nella dichiarazione di impatto, tuttavia, è stato raccolto dalla stampa popolare e alimentato da un piccolo twitterstorm. Quindi, sento il mio dovere fare almeno una stima approssimativa di "Quanti articoli influisce sul nostro lavoro?". Non sono un bibliometrico, e questo è davvero un esercizio approssimativo e pronto, ma si spera che dia un senso all'ordine di grandezza del problema.
Il codice di analisi (in Matlab) è riportato di seguito, ma qui c'è il magro: basato su alcuni calcoli probabilistici ragionevoli, ma forse su fragili campioni di letteratura, stimo che circa 15.000 articoli utilizzino l'inferenza delle dimensioni dei cluster con correzione per test multipli; di questi, circa 3.500 usano un CDT di P = 0,01. 3.500 è circa il 9% dell'intera letteratura, o forse più utilmente, l'11% di articoli contenenti dati originali. (Naturalmente alcuni di questi 15.000 o 3.500 potrebbero usare l'inferenza non parametrica, ma sfortunatamente è raro per la fMRI - al contrario, è lo strumento di inferenza predefinito per le analisi strutturali VBM / DTI in FSL).
Francamente ho pensato che questo numero sarebbe stato più alto, ma non ho realizzato la grande proporzione di studi che non hanno mai usato alcun tipo di correzione multipla dei test. (Non si possono gonfiare i significati corretti se non si corregge!) . Questi calcoli suggeriscono che 13.000 articoli non hanno utilizzato correzioni multiple per i test. Naturalmente alcuni di questi potrebbero utilizzare regioni di interesse o analisi di sotto-volume, ma sono pochi (cioè i risultati dello stile di sperimentazione clinica) che non hanno assolutamente alcuna molteplicità. Il nostro documento non riguarda direttamente questo gruppo, ma per le pubblicazioni che hanno utilizzato la correzione di test multipli folk, P <0,001 & k> 10, il nostro documento mostra che questo approccio ha tassi di errore a livello familiare ben superiori al 50%.
Quindi, stiamo dicendo che 3.500 articoli sono "sbagliati"? Dipende. I nostri risultati suggeriscono che i risultati di CDT P = 0,01 hanno valori di P gonfiati, ma ogni studio deve essere esaminato ... se gli effetti sono davvero forti, probabilmente non importa se i valori di P sono distorti e l'inferenza scientifica rimarrà invariata. Ma se gli effetti sono davvero deboli, i risultati potrebbero effettivamente essere coerenti con il rumore . E che dire di quei 13.000 articoli senza correzione, particolarmente comuni nella letteratura precedente? No, non dovrebbero nemmeno essere scartati a dismisura, ma per quei lavori è necessario un occhio particolarmente stanco, specialmente quando li si confronta con nuovi riferimenti con standard metodologici migliorati.
Include anche questa tabella alla fine:
AFNI BV FSL SPM OTHERS
____ __ ___ ___ ______
>.01 9 5 9 8 4
.01 9 4 44 20 3
.005 24 6 1 48 3
.001 13 20 11 206 5
<.001 2 5 3 16 2
Fondamentalmente, SPM (Statistical Parametric Mapping, una cassetta degli attrezzi per Matlab) è lo strumento più ampiamente utilizzato per gli studi di neuroscienza fMRI. Se controlli la carta, vedrai che usare un CDT di P = 0,001 (lo standard) per i cluster in SPM fornisce quasi il tasso di errore atteso per la famiglia.
Gli autori hanno persino compilato un errore a causa della formulazione dell'articolo:
Data la diffusa interpretazione errata del nostro documento, Eklund et al., Cluster Failure: Perché le inferenze della fMRI per estensione spaziale hanno gonfiato i tassi di falsi positivi, abbiamo presentato un errore all'ufficio editoriale del PNAS:
Errata for Eklund et al., Cluster failure: perché le inferenze di fMRI per estensione spaziale hanno gonfiato i tassi di falsi positivi. Eklund, Anders; Nichols, Thomas E; Knutsson, Hans
Due frasi erano scritte male e potevano facilmente essere fraintese come sopravvalutando i nostri risultati.
L'ultima frase della dichiarazione di significatività dovrebbe essere la seguente: "Questi risultati mettono in dubbio la validità di una serie di studi di RMF e possono avere un grande impatto sull'interpretazione di risultati di neuroimaging debolmente significativi."
La prima frase dopo il titolo "Il futuro della risonanza magnetica" avrebbe dovuto leggere: "A causa delle deplorevoli pratiche di archiviazione e condivisione dei dati è improbabile che le analisi problematiche possano essere rifatte".
Questi sostituiscono le due frasi che implicano erroneamente che il nostro lavoro ha influenzato tutte le 40.000 pubblicazioni (vedi Bibliometria di Cluster Inference per un ospite di quanto della letteratura sia potenzialmente interessata).
Dopo aver inizialmente rifiutato l'errata, sulla base del fatto che correggeva l'interpretazione e non i fatti, PNAS ha accettato di pubblicarlo come l'abbiamo presentato sopra.
Sul cosiddetto bug
Alcune notizie hanno anche menzionato un bug come causa dell'invalidità degli studi. In effetti, uno degli strumenti di AFNI stava minando le inferenze , e questo è stato risolto dopo che la prestampa era stata pubblicata in arXiv .
Inferenza statistica utilizzata nel neuroimaging funzionale
≈ 5 %
Usando un modello lineare generalizzato (GLM) identifichi quali serie temporali del segnale voxel sono correlate al design del paradigma del tuo esperimento (di solito una serie temporale booleana contorta con una funzione di risposta emodinamica canonica, ma esistono variazioni).
Quindi questo GLM ti ha dato quanto ogni serie temporale voxel assomiglia all'attività. Ora, supponiamo di avere due gruppi di individui: pazienti e controlli di solito. Il confronto dei punteggi GLM tra i gruppi potrebbe essere usato per mostrare come la condizione dei gruppi modula il loro modello di "attivazione" cerebrale.
Il confronto tra i gruppi in termini di voxel è fattibile, ma a causa della funzione di diffusione dei punti inerente all'apparecchiatura oltre a una fase di preelaborazione regolare, non è ragionevole aspettarsi che i voxel trasportino individualmente tutte le informazioni. La differenza nei voxel tra i gruppi dovrebbe essere, in effetti, diffusa sui voxel vicini.
Pertanto, viene eseguito un confronto a livello di cluster , ovvero vengono considerate solo le differenze tra i gruppi che si formano in cluster. Questa soglia di estensione del cluster è la tecnica di correzione del confronto multiplo più popolare negli studi di fMRI. Il problema sta qui.
SPM e FSL dipendono dalla teoria del campo casuale gaussiano (RFT) per l'inferenza voxelwise e clusterwise corretta da FWE. Tuttavia, l'inferenza clusterwise RFT dipende da due ipotesi aggiuntive. Il primo presupposto è che la levigatezza spaziale del segnale fMRI sia costante sul cervello e il secondo presupposto è che la funzione di autocorrelazione spaziale ha una forma specifica (un esponenziale quadrato) (30)
Almeno in SPM devi impostare una frequenza FWE nominale e anche una soglia di definizione del cluster (CDT). Fondamentalmente, SPM trova i voxel altamente correlati all'attività e, dopo aver raggiunto il limite con il CDT, quelli vicini vengono aggregati in cluster. Le dimensioni di questi cluster vengono confrontate con l'estensione prevista del cluster da Random Field Theory (RFT), dato l'insieme FWER [ 1 ].
La teoria dei campi casuali richiede che la mappa delle attività sia fluida, per essere una buona approssimazione reticolare ai campi casuali. Ciò è correlato alla quantità di livellamento applicata ai volumi. Il livellamento influisce anche sul presupposto che i residui siano normalmente distribuiti, poiché il livellamento, secondo il teorema del limite centrale, renderà i dati più gaussiani.
Gli autori hanno dimostrato in [ 1 ] che le dimensioni attese del cluster da RFT sono veramente piccole se confrontate con le soglie di estensione del cluster ottenute dal test di permutazione casuale (RPT).
α = 0,05
@amoeba ha sollevato queste due domande molto pertinenti nei commenti:
(1) L'Eklund et al. Il documento PNAS parla del "livello nominale del 5%" di tutti i test (vedi ad es. Linea nera orizzontale in Fig 1). Tuttavia, CDT nella stessa figura è variabile e può essere ad esempio 0,01 e 0,001. In che modo la soglia CDT è correlata al tasso di errore nominale di tipo I? Ne sono confuso. (2) Hai visto la risposta di Karl Friston
http://arxiv.org/abs/1606.08199 ? L'ho letto, ma non sono del tutto sicuro di quello che stanno dicendo: vedo correttamente che sono d'accordo con Eklund et al. ma dire che questo è un problema "ben noto"?
(1) Buona domanda. In realtà ho rivisto i miei riferimenti, vediamo se posso renderlo più chiaro ora. L'inferenza basata sul cluster si basa sull'estensione dei cluster che si formano dopo l'applicazione di una soglia primaria (il CDT, che è arbitrario ). Nell'analisi secondaria viene applicata una soglia sul numero di voxel per cluster . Questa soglia si basa sulla distribuzione prevista di estensioni di cluster nulli, che può essere stimata dalla teoria (ad es. RFT) e imposta un valore nominale nominale. Un buon riferimento è [ 2 ].
(2) Grazie per questo riferimento, non l'ho mai visto prima. Flandin & Friston sostengono Eklund et al. inferenza confermata RFT perché hanno sostanzialmente dimostrato che rispettando i suoi presupposti (riguardo a CDT e smoothing) i risultati sono imparziali. Sotto questa luce, i nuovi risultati mostrano che le diverse pratiche in letteratura tendono a distorcere l'inferenza in quanto interrompe le ipotesi di RFT.
Sui confronti multipli
È anche noto che molti studi sulle neuroscienze non sono corretti per confronti multipli, stime che vanno dal 10% al 40% della letteratura. Ma questi non sono giustificati da tale affermazione, tutti sanno che questi documenti hanno una fragile validità e possibilmente enormi percentuali di falsi positivi.
Sulla FWER superiore al 70%
Gli autori hanno anche riportato una procedura che produce FWER in eccesso del 70%. Questa procedura "folk" consiste nell'applicare il CDT per mantenere solo i cluster altamente significativi e quindi applicare un'altra soglia di estensione del cluster scelta arbitrariamente (in numero di voxel). Questo, a volte chiamato "set-inferenza", ha basi statistiche deboli e probabilmente genera i risultati meno affidabili.
Rapporti precedenti
Gli stessi autori avevano già segnalato problemi con la validità di SPM [ 1 ] su singole analisi. Ci sono anche altre opere citate in quest'area.
Curiosamente, diversi rapporti sull'analisi a livello di gruppo e individuale basati su dati simulati hanno concluso che la soglia RFT era, in effetti, prudente. Con i recenti progressi nella potenza di elaborazione, tuttavia RPT può essere eseguito molto più facilmente su dati reali, mostrando grandi discrepanze con RFT.
AGGIORNAMENTO: 18 ottobre 2017
Un commento su "Cluster Failure" è emerso lo scorso giugno [ 3 ]. Ci Mueller et al. sostengono che i risultati presentati in Eklund et al potrebbero essere dovuti a una specifica tecnica di preelaborazione delle immagini utilizzata nel loro studio. Fondamentalmente, hanno ricampionato le immagini funzionali a una risoluzione più elevata prima di renderle uniformi (anche se probabilmente non sono state eseguite da tutti i ricercatori, questa è una procedura di routine nella maggior parte dei software di analisi fMRI). Notano anche che Flandin e Friston no. In realtà ho visto Eklund parlare nello stesso mese al meeting annuale dell'Organizzazione per la mappatura del cervello umano (OHBM) a Vancouver, ma non ricordo alcun commento su questo argomento, ma sembra cruciale alla domanda.
[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M., & Knutsson, H. (2012). L'analisi parametrica di fMRI con SPM fornisce risultati validi? - Uno studio empirico di 1484 set di dati di riposo. NeuroImage, 61 (3), 565-578.
[2] Woo, CW, Krishnan, A., & Wager, TD (2014). Soglia basata sull'estensione del cluster nelle analisi di fMRI: insidie e raccomandazioni. Neuroimage, 91, 412-419.
[3] Mueller, K., Lepsien, J., Möller, HE, & Lohmann, G. (2017). Commento: fallimento del cluster: perché le inferenze di fMRI per estensione spaziale hanno gonfiato i tassi di falsi positivi. Frontiers in Human Neuroscience, 11.