Fallacia del tiratore scelto del Texas nell'analisi dei dati esplorativi


23

Stavo leggendo questo articolo su Nature in cui alcuni errori sono spiegati nel contesto dell'analisi dei dati. Ho notato che l'errore del tiratore scelto del Texas era particolarmente difficile da evitare:

Una trappola cognitiva che attende durante l'analisi dei dati è illustrata dalla favola del tiratore scelto del Texas: un tiratore inetto che spara un modello casuale di proiettili sul lato di un fienile, disegna un bersaglio attorno al più grande ammasso di fori di proiettile e punta orgogliosamente verso il suo successo.

Il suo bullseye è ovviamente ridicolo - ma l'errore non è così evidente per i giocatori d'azzardo che credono in una "mano calda" quando hanno una serie di vittorie, o per le persone che vedono un significato soprannaturale quando si presenta una lotteria come tutti i numeri dispari.

Né è sempre ovvio per i ricercatori. "Ottieni solo un po 'di incoraggiamento dai dati e poi pensi, beh, questo è il percorso da percorrere", afferma Pashler. "Non ti rendi conto di avere 27 diverse opzioni e hai scelto quello che ti ha dato i risultati più gradevoli o interessanti, e ora sei impegnato in qualcosa che non è affatto una rappresentazione imparziale dei dati.

Penso che quel tipo di lavoro esplorativo sia banale e spesso, le ipotesi sono costruite sulla base di quella parte dell'analisi. C'è un intero approccio ( EDA ) dedicato a questo processo:

L'analisi dei dati esplorativi è stata promossa da John Tukey per incoraggiare gli statistici ad esplorare i dati e possibilmente formulare ipotesi che potrebbero portare a nuovi dati raccolti ed esperimenti

Sembra che qualsiasi processo esplorativo eseguito senza avere un'ipotesi in anticipo sia incline a generare ipotesi spurie.

Si noti che la descrizione dell'EDA sopra parla in realtà new data collection and experiments. Comprendo che dopo che sono stati raccolti nuovi dati, è appropriata un'analisi dei dati di conferma (CDA). Tuttavia, non penso che questa distinzione sia fatta molto chiaramente e sebbene una separazione di EDA e CDA sarebbe l'ideale, sicuramente ci sono alcune circostanze in cui ciò non è fattibile. Direi che seguire questa separazione rigorosamente non è comune e la maggior parte dei professionisti non aderisce affatto al paradigma EDA.

Quindi la mia domanda è: l'EDA (o qualsiasi processo informale di esplorazione dei dati) rende più probabile la caduta per l'errore del tiratore scelto del Texas?


3
Non so esattamente cosa intendi per "ipotesi spuria". Lo spirito dell'analisi esplorativa dei dati è quello di guardare i dati ed essere aperti a una varietà di modelli, inclusi quelli che non ti aspettavi. Niente di meno e niente di più. Nulla nell'analisi dei dati esplorativi garantisce buone idee e nulla esclude o ti consente di rinunciare a pensare in modo critico o collegare ciò che fai alla scienza sottostante (senso ampio). Quindi, qui c'è qualche rischio di criticare l'EDA per cose che nessuno ha mai negato. o nessuno supporta.
Nick Cox,

3
Quello che è più difficile da imparare e insegnare in EDA è proprio quello su cui i test di significatività dovrebbero aiutare (negli account più ottimisti): prendere l'abitudine di non interpretare in modo eccessivo i dettagli nei dati che non sono abbastanza importanti per essere degni di attenzione . Direi che molti resoconti dell'EDA non spingono abbastanza forte l'idea che uno schema da prendere sul serio debba essere identificabile in diversi set di dati, ma che la negligenza è comune nella scienza statistica.
Nick Cox,

1
Grazie. Il problema è che generare molte ipotesi e testarle nello stesso set di dati è davvero pericoloso perché è probabile che tu ne confermi una anche se è falso. Come descrive Creosote, sarebbe necessaria una correzione nei valori p. Sfortunatamente, non l'ho mai visto in pratica.
Robert Smith,

2
Dall'apprendimento (francese) dell'EDA nei primi anni '80, ho avuto l'impressione che in realtà fosse molto più semplice piegare la tua analisi verso le conclusioni previste piuttosto che con una struttura statistica più forte ...
Xi'an,

Risposte:


12

Se si considera il ruolo dell'EDA strettamente come generazione di ipotesi, allora non si applica l'errore di tiratore scelto. Tuttavia, è molto importante che le successive prove di conferma siano effettivamente indipendenti. Molti ricercatori tentano di "riconciliare le differenze" con cose come analisi congiunte, meta-analisi e metodi bayesiani. Ciò significa che almeno alcune delle prove presentate in tale analisi includono "il cerchio attorno ai fori di proiettile casuali".


5
Esattamente. Il problema con tanta analisi dei dati esplorativi è che lo stesso set viene utilizzato sia per l'addestramento (identificando dove sono atterrati i proiettili) sia per i test (disegnando il cerchio attorno a loro).
Michael K,

11

Ciò dipinge una visione molto negativa dell'analisi dei dati esplorativi. Mentre l'argomento non è sbagliato, sta davvero dicendo "cosa può andare storto quando uso uno strumento molto importante nel modo sbagliato?"

Accettare valori p non aggiustati dai metodi EDA comporterà tassi di errore di tipo I fortemente gonfiati. Ma penso che Tukey non sarebbe contento di nessuno. Il punto dell'EDA non è quello di trarre conclusioni definitive sulle relazioni nei dati, ma piuttosto di cercare potenziali nuove relazioni nei dati a cui dare seguito.

Tralasciare questo passaggio nel più ampio processo scientifico significa essenzialmente che la scienza non è in grado di trovare nuovi aspetti interessanti dei nostri dati, al di fuori della pura deduzione logica. Hai mai provato a dedurre logicamente che l'eccessiva espressione di un insieme di geni influenzerà la sopravvivenza di una cellula? Suggerimento: non è molto semplice (una delle nostre battute preferite tra lo staff di bioinformatica del mio lavoro è stata quando un fisico ha chiesto "Perché non simuli le proprietà fisiche delle diverse interazioni genetiche? È uno spazio di parametri finito").

Personalmente, penso che la confusione al riguardo possa portare a un grande rallentamento del progresso scientifico. Conosco troppi ricercatori non statistici che affermeranno che non vogliono fare procedure EDA su dati preliminari , perché "sanno che l'EDA può essere dannoso".

In conclusione, è assolutamente vero che l'uso dei metodi EDA e il loro trattamento come metodi di analisi dei dati di conferma porterà a risultati non validi. Tuttavia, la mancanza di un uso corretto dell'EDA può portare a quasi nessun risultato.


Grazie. Non mi preoccuperei troppo di avere poche persone impegnate in una sorta di analisi esplorativa. Penso che sia vero il contrario; molte persone stanno facendo quel lavoro esplorativo ma probabilmente senza prendere adeguate precauzioni per prevenire errori di tipo I come hai descritto. Tuttavia, è interessante conoscere persone che hanno un'opinione negativa sull'EDA. Se non vogliono farlo in base a dati preliminari, quando si sentono a proprio agio nel fare un lavoro EDA (o EDA-like)?
Robert Smith,

La mia esperienza è che i ricercatori non statistici sono abituati a sentire "confronti multipli sono problematici" e quindi quando arrivano da me con i dati, sono ansiosi di dire che vogliono evitare di fare confronti multipli, anche con dati preliminari. Naturalmente, una comprensione più completa del problema sarebbe che si desidera evitare confronti multipli in uno studio CDA.
Cliff AB,

Capisco. Questo ha più senso.
Robert Smith,

5

Sembra che qualsiasi processo esplorativo eseguito senza avere un'ipotesi in anticipo sia incline a generare ipotesi spurie.

Vorrei temperare questa affermazione ed esprimerla in modo leggermente diverso: la scelta di un'ipotesi da testare sulla base dei dati mina il test se non si utilizza l'ipotesi nulla corretta. La spinta dell'articolo di Nature è, essenzialmente, che è facile per gli analisti ingannare se stessi ignorando tutti i molteplici confronti che implicitamente stanno facendo durante l'esplorazione.

La natura cita Andrew Gelman, ma non menziona il suo articolo con Eric Loken su questo argomento. Un estratto:

Quando sono emerse critiche a più confronti riguardo ad alcuni degli articoli che discutiamo qui, i ricercatori non rispondono mai di aver scelto in anticipo tutti i dettagli del loro trattamento e analisi dei dati; piuttosto, sostengono di aver raccolto solo un'analisi per i dati particolari che hanno visto . Per quanto intuitiva possa sembrare questa difesa, non affronta la preoccupazione frequente e frequente di paragoni multipli.

Un altro:

Non è che i ricercatori abbiano eseguito centinaia di confronti diversi e ne abbiano scelti statisticamente significativi. Piuttosto, iniziano con un'idea in qualche modo formata nella loro mente di quale confronto eseguire, e perfezionano quell'idea alla luce dei dati. Hanno visto un motivo in rosso e rosa e hanno combinato i colori.

succintamente:

Esiste una mappatura uno-a-molti dalle ipotesi scientifiche a quelle statistiche.

E ancora uno, enfatizza il mio:

In tutti i casi che abbiamo discusso, l'analisi pubblicata ha una storia coerente con le ipotesi scientifiche che hanno motivato il lavoro, ma altri modelli di dati (che, date le dimensioni del campione, avrebbero potuto facilmente verificarsi per caso) avrebbero naturalmente portato a diverse analisi dei dati (ad esempio, un focus sugli effetti principali piuttosto che sulle interazioni o una diversa scelta di sottoinsiemi di dati da confrontare) che avrebbero potuto ugualmente essere usati per supportare le ipotesi di ricerca. Il risultato rimane, come abbiamo scritto altrove, una sorta di macchina per produrre e pubblicizzare modelli casuali.

In breve, non è che l'EDA porti a una "ipotesi spuria"; è che testare un'ipotesi con lo stesso set di dati che ha spinto l'ipotesi può portare a conclusioni spurie.

Se sei interessato a superare questo ostacolo, Gelman ha un altro articolo che sostiene che molti di questi problemi scompaiono in un contesto bayesiano, e l'articolo con Loken fa riferimento alla "replica pre-pubblicazione" come descritto aneddoticamente nella prima sezione di questo articolo .


Grazie. Molto interessante. Darò un'occhiata al documento di Gelman su confronti multipli.
Robert Smith,

3

Quasi per definizione sì, certo, l'EDA senza CDA attira i tiratori scelti del Texas.

pp


Grazie. Sì, sarebbe necessaria una correzione. Non penso che tenerne conto sia molto comune.
Robert Smith,

3

Solo per aggiungere alle già ottime risposte: c'è una via di mezzo tra un CDA completo e l'accettazione dei risultati EDA al valore nominale. Una volta trovata una possibile caratteristica di interesse (o ipotesi), puoi avere un'idea della sua robustezza eseguendo simulazioni di convalida incrociata (CV) o bootstrap. Se i risultati ottenuti dipendono solo da alcune osservazioni chiave, CV o Bootstrap mostreranno che molti dei campioni di pieghe (CV) o boostrap non riescono a riprodurre la funzione osservata.

Questo non è un metodo infallibile, ma è un buon controllo intermedio prima di andare per un CDA completo (o tenere intenzionalmente un "set di validazione" dal tuo pool di dati iniziale).


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.