Stavo leggendo questo articolo su Nature in cui alcuni errori sono spiegati nel contesto dell'analisi dei dati. Ho notato che l'errore del tiratore scelto del Texas era particolarmente difficile da evitare:
Una trappola cognitiva che attende durante l'analisi dei dati è illustrata dalla favola del tiratore scelto del Texas: un tiratore inetto che spara un modello casuale di proiettili sul lato di un fienile, disegna un bersaglio attorno al più grande ammasso di fori di proiettile e punta orgogliosamente verso il suo successo.
Il suo bullseye è ovviamente ridicolo - ma l'errore non è così evidente per i giocatori d'azzardo che credono in una "mano calda" quando hanno una serie di vittorie, o per le persone che vedono un significato soprannaturale quando si presenta una lotteria come tutti i numeri dispari.
Né è sempre ovvio per i ricercatori. "Ottieni solo un po 'di incoraggiamento dai dati e poi pensi, beh, questo è il percorso da percorrere", afferma Pashler. "Non ti rendi conto di avere 27 diverse opzioni e hai scelto quello che ti ha dato i risultati più gradevoli o interessanti, e ora sei impegnato in qualcosa che non è affatto una rappresentazione imparziale dei dati. ”
Penso che quel tipo di lavoro esplorativo sia banale e spesso, le ipotesi sono costruite sulla base di quella parte dell'analisi. C'è un intero approccio ( EDA ) dedicato a questo processo:
L'analisi dei dati esplorativi è stata promossa da John Tukey per incoraggiare gli statistici ad esplorare i dati e possibilmente formulare ipotesi che potrebbero portare a nuovi dati raccolti ed esperimenti
Sembra che qualsiasi processo esplorativo eseguito senza avere un'ipotesi in anticipo sia incline a generare ipotesi spurie.
Si noti che la descrizione dell'EDA sopra parla in realtà new data collection and experiments
. Comprendo che dopo che sono stati raccolti nuovi dati, è appropriata un'analisi dei dati di conferma (CDA). Tuttavia, non penso che questa distinzione sia fatta molto chiaramente e sebbene una separazione di EDA e CDA sarebbe l'ideale, sicuramente ci sono alcune circostanze in cui ciò non è fattibile. Direi che seguire questa separazione rigorosamente non è comune e la maggior parte dei professionisti non aderisce affatto al paradigma EDA.
Quindi la mia domanda è: l'EDA (o qualsiasi processo informale di esplorazione dei dati) rende più probabile la caduta per l'errore del tiratore scelto del Texas?