È possibile modificare un'ipotesi per abbinare i dati osservati (ovvero la spedizione di pesca) ed evitare un aumento degli errori di tipo I?


32

È noto che i ricercatori dovrebbero dedicare del tempo all'osservazione e all'esplorazione di dati e ricerche esistenti prima di formulare un'ipotesi e quindi raccogliere dati per verificare tale ipotesi (facendo riferimento al test di significatività dell'ipotesi nulla). Molti libri statistici di base avvertono che le ipotesi devono essere formate a priori e non possono essere modificate dopo la raccolta dei dati, altrimenti la metodologia diventa invalida.

Capisco che uno dei motivi per cui cambiare un'ipotesi per adattarsi ai dati osservati sia problematico è a causa della maggiore possibilità di commettere un errore di tipo I a causa di dati spuri, ma la mia domanda è: è che l' unica ragione o ci sono altri problemi fondamentali con in una spedizione di pesca?

Come domanda bonus, ci sono modi per fare spedizioni di pesca senza esporsi alle potenziali insidie? Ad esempio, se si dispone di dati sufficienti, è possibile generare ipotesi da metà dei dati e quindi utilizzare l'altra metà per testarli?

aggiornare

Apprezzo l'interesse per la mia domanda, ma le risposte e i commenti sono principalmente rivolti a ciò che pensavo di aver stabilito come informazione di base. Sono interessato a sapere se ci sono altri motivi per cui va oltre la più alta possibilità di risultati spuri e se ci sono modi, come la suddivisione dei dati, di modificare un'ipotesi post hoc, evitando l'aumento degli errori di tipo I.

Ho aggiornato il titolo per rispecchiare la speranza della mia domanda.

Grazie e scusa per la confusione!



1
Prendendo un altro punto di vista su ciò che è già stato detto: l'essenza del metodo scientifico è formulare ipotesi e quindi provare a falsificarle perché possano diventare teorie (se la falsificazione fallisce). Fare una spedizione di pesca è un modo valido per trovare ipotesi che vale la pena falsificare in un esperimento successivo, ma non puoi mai fare e provare a falsificare un'ipotesi in una sola volta. In particolare, se sei disposto a modificare la tua ipotesi, non stai più cercando di falsificarla. Invece, quando ti adegui, stai falsificando la tua ipotesi non corretta e formando una nuova ipotesi.
Wrzlprmft,

@jona, è un ottimo documento. Ho già letto articoli di Ioannidis e Schooler, ma Simmons et al. Illustrano meravigliosamente il problema.
post hoc

1
Mi chiedo se troverai anche questo documento pertinente alla tua domanda: stat.columbia.edu/~gelman/research/published/multiple2f.pdf . Non è esattamente sullo stesso argomento, ma affronta un aspetto di esso.
a11msp,

1
I dati possono farti cambiare la tua ipotesi ... ma in tal caso devi iniziare a raccogliere nuovi dati da zero per confermare la nuova ipotesi.
Keshlam,

Risposte:


54

Certamente puoi andare in spedizioni di pesca, purché ammetti che è una spedizione di pesca e trattarla come tale. Un nome più carino per tale è "analisi dei dati esplorativi".

Un'analogia migliore potrebbe essere sparare a un bersaglio:

Puoi sparare a un bersaglio e festeggiare se colpisci l'occhio di tori.

Puoi sparare senza un bersaglio per testare le proprietà della tua pistola.

Ma è barare sparare contro un muro e poi dipingere un bersaglio attorno al foro di proiettile.

Un modo per evitare alcuni dei problemi è quello di eseguire l'esplorazione in un set di dati di training e quindi testarlo su un set di dati "test" separato.


13
It's hard to improve on Peter's answer. The unfortunate problem with much of data dredging is the lack of admission by the authors that the hypotheses were not fully pre-specified, i.e., not using the term 'exploratory'. Many, many researchers are dredging data to get a publishable paper and not following up with any attempt at validation (which would often disappoint them).
Frank Harrell

2
Taking Frank Harrell's comment a step further: it's legitimate to explore some data and publish an intriguing finding... as an intriguing, exploratory finding that's subject to being reproduced/validated. The downside is: if someone else confirms your findings they may well get the glory, and if others do not confirm your results you were fooled by a spurious correlation. Bad if you have a big ego. Not to mention you would need to make your data and procedures publicly available, which many practitioners in many fields wont't do. And you should follow up with new data rather than moving on.
Wayne

11
+1 But it's cheating to shoot at a wall and then paint a target around the bullet hole.
WernerCD

3
@post-hoc well, it shouldn't raise eyebrows, but it might. Depends on whose eyes are under the brows!
Peter Flom - Reinstate Monica

2
Texas Sharpshooter Fallacy..
smci

25

The problem with fishing expeditions is this: if you test enough hypotheses, one of them will be confirmed with a low p value. Let me give a concrete example.

Imagine you have are doing an epidemiological study. You have found 1000 patients that suffer from a rare condition. You want to know what they have in common. So you start testing - you want to see whether a particular characteristic is overrepresented in this sample. Initially you test for gender, race, certain pertinent family history (father died of heart disease before age 50, …) but eventually, as you are having trouble finding anything that "sticks", you start to add all kinds of other factors that just might relate to the disease:

  • is vegetarian
  • has traveled to Canada
  • finished college
  • is married
  • has children
  • has cats
  • has dogs
  • drinks at least 5 glasses of red wine per week

Now here is the thing. If I select enough "random" hypotheses, it starts to become likely that at least one of these will result in a p value less than 0.05 - because the very essence of p value is "the probability of being wrong to reject the null hypothesis when there is no effect". Put differently - on average, for every 20 bogus hypotheses you test, one of them will give you a p of < 0.05.

Questo è molto ben sintetizzato nel cartone animato XKCD http://xkcd.com/882/ :

inserisci qui la descrizione dell'immagine

La tragedia è che anche se un singolo autore non esegue 20 diversi test di ipotesi su un campione per cercare un significato, potrebbero esserci altri 19 autori che fanno la stessa cosa; e quello che "trova" una correlazione ora ha un documento interessante da scrivere, e che probabilmente verrà accettato per la pubblicazione ...

Ciò porta a una sfortunata tendenza a reperti irreproducibili. Il modo migliore per evitare questo come singolo autore è di alzare il livello. Invece di testare il singolo fattore, chiediti "se testerò N ipotesi, qual è la probabilità di trovare almeno un falso positivo". Quando stai davvero testando "ipotesi di pesca" potresti pensare di fare una correzione Bonferroni per proteggerti, ma la gente spesso non lo fa.

C'erano alcuni articoli interessanti del dott. Ioannides - profilati nell'Atlantico Monthly specificamente su questo argomento.

Vedi anche questa domanda precedente con diverse risposte perspicaci.

aggiorna per rispondere meglio a tutti gli aspetti della tua domanda:

Se hai paura di "pescare", ma in realtà non sai quali ipotesi formulare, potresti sicuramente dividere i tuoi dati nelle sezioni "esplorazione", "replica" e "conferma". In linea di principio, ciò dovrebbe limitare la tua esposizione ai rischi descritti in precedenza: se hai un valore p di 0,05 nei dati di esplorazione e ottieni un valore simile nei dati di replica e conferma, il rischio di sbagliare diminuisce. Un esempio di "fare la cosa giusta" è stato mostrato nel British Medical Journal (una pubblicazione molto rispettata con un fattore di impatto di 17+)

Esplorazione e conferma di fattori associati a una gravidanza semplice in donne nullipare: studio prospettico di coorte, Chappell et al

Ecco il paragrafo pertinente:

Abbiamo diviso il set di dati di 5628 donne in tre parti: un set di dati di esplorazione di due terzi delle donne provenienti da Australia e Nuova Zelanda, scelti a caso (n = 2129); un set di dati di replica locale del terzo rimanente di donne provenienti da Australia e Nuova Zelanda (n = 1067); e un set di dati di conferma esterno, geograficamente distinto, di 2432 donne europee del Regno Unito e della Repubblica d'Irlanda.

Tornando un po 'indietro nella letteratura, c'è un buon articolo di Altman e altri intitolato "Prognosi e ricerca prognostica: convalida di un modello prognostico" che va molto più in profondità e suggerisce modi per assicurarsi di non cadere in questo errore. I "punti principali" dell'articolo:

I modelli non validati non dovrebbero essere usati nella pratica clinica Quando si convalida un modello prognostico, si dovrebbero valutare la calibrazione e la discriminazione. La validazione dovrebbe essere fatta su dati diversi da quelli usati per sviluppare il modello, preferibilmente da pazienti in altri centri. I modelli potrebbero non funzionare bene nella pratica a causa di carenze nei metodi di sviluppo o perché il nuovo campione è troppo diverso dall'originale

Nota in particolare il suggerimento che la convalida deve essere eseguita (parafrasando) con i dati provenienti da altre fonti , ovvero non è sufficiente suddividere i dati in modo arbitrario in sottoinsiemi, ma dovresti fare il possibile per dimostrare che "apprendere" sul set da un set di esperimenti può essere applicato ai dati di una diversa serie di esperimenti. È una barra più alta, ma riduce ulteriormente il rischio che un errore sistematico nella configurazione crei "risultati" che non possono essere verificati in modo indipendente.

È un argomento molto importante - grazie per aver posto la domanda!


7
Questo mi viene in mente: xkcd.com/882
Jens,

2
@jens - questa è una spiegazione molto più eloquente di quella che ho dato ... Grazie per quel link. Come al solito , passa il mouse sopra il fumetto per un po 'di zenzero.
Floris,

Ioannides e l'articolo di Lehrer sono stati il ​​percorso che mi ha portato qui. Il tuo esempio è simile all'esempio di Simmons et al. Menzionato da @jona. È un ottimo modo per spiegare la crescente probabilità di errori di tipo I, ma ci sono altri motivi per cui è negativo?
post-hoc,

1
Il problema con il dragaggio dei dati in generale è che si rischia di confondere la "correlazione" con la "causalità". Presentando prima un'ipotesi ragionevole , quindi confermando che aiuta a spiegare le osservazioni, si limita il rischio di confondere le due cose. I "Big Data" spesso vanno dall'altra parte - il loro modus operandi è "se analizzo abbastanza dati vedrò schemi che erano veri in passato e che continueranno a tenere in futuro". A volte funziona, a volte no. Le statistiche non dovrebbero mai diventare un sostituto del pensiero e della comprensione, ma solo una conferma .
Floris,

6
Non penso che il problema principale sia la correlazione vs. la causalità. È facile fare pessime analisi correlazionali solo per scoprire che le associazioni non si replicano.
Frank Harrell,

5

La domanda si pone se ci sono altri problemi oltre all'inflazione di errore di tipo I che derivano dalle spedizioni di pesca.

A type I error occurs when you reject the null hypothesis (typically of no effect) when it is true. A generalization, related to type I errors but not quite the same, is that even when the null is false (i.e., there is some effect) fishing expeditions will lead to overestimates of the size (and hence importance) of the effects found. In other words, when you aren't looking at a particular variable, but look at everything and focus your attention on whatever is the largest effect, the effects you find may not be 0, but are biased to appear larger than they are. An example of this can be seen in my answer to: Algorithms for automatic model selection.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.