The problem with fishing expeditions is this: if you test enough hypotheses, one of them will be confirmed with a low p value. Let me give a concrete example.
Imagine you have are doing an epidemiological study. You have found 1000 patients that suffer from a rare condition. You want to know what they have in common. So you start testing - you want to see whether a particular characteristic is overrepresented in this sample. Initially you test for gender, race, certain pertinent family history (father died of heart disease before age 50, …) but eventually, as you are having trouble finding anything that "sticks", you start to add all kinds of other factors that just might relate to the disease:
- is vegetarian
- has traveled to Canada
- finished college
- is married
- has children
- has cats
- has dogs
- drinks at least 5 glasses of red wine per week
…
Now here is the thing. If I select enough "random" hypotheses, it starts to become likely that at least one of these will result in a p value less than 0.05 - because the very essence of p value is "the probability of being wrong to reject the null hypothesis when there is no effect". Put differently - on average, for every 20 bogus hypotheses you test, one of them will give you a p of < 0.05.
Questo è molto ben sintetizzato nel cartone animato XKCD http://xkcd.com/882/ :
La tragedia è che anche se un singolo autore non esegue 20 diversi test di ipotesi su un campione per cercare un significato, potrebbero esserci altri 19 autori che fanno la stessa cosa; e quello che "trova" una correlazione ora ha un documento interessante da scrivere, e che probabilmente verrà accettato per la pubblicazione ...
Ciò porta a una sfortunata tendenza a reperti irreproducibili. Il modo migliore per evitare questo come singolo autore è di alzare il livello. Invece di testare il singolo fattore, chiediti "se testerò N ipotesi, qual è la probabilità di trovare almeno un falso positivo". Quando stai davvero testando "ipotesi di pesca" potresti pensare di fare una correzione Bonferroni per proteggerti, ma la gente spesso non lo fa.
C'erano alcuni articoli interessanti del dott. Ioannides - profilati nell'Atlantico Monthly specificamente su questo argomento.
Vedi anche questa domanda precedente con diverse risposte perspicaci.
aggiorna per rispondere meglio a tutti gli aspetti della tua domanda:
Se hai paura di "pescare", ma in realtà non sai quali ipotesi formulare, potresti sicuramente dividere i tuoi dati nelle sezioni "esplorazione", "replica" e "conferma". In linea di principio, ciò dovrebbe limitare la tua esposizione ai rischi descritti in precedenza: se hai un valore p di 0,05 nei dati di esplorazione e ottieni un valore simile nei dati di replica e conferma, il rischio di sbagliare diminuisce. Un esempio di "fare la cosa giusta" è stato mostrato nel British Medical Journal (una pubblicazione molto rispettata con un fattore di impatto di 17+)
Esplorazione e conferma di fattori associati a una gravidanza semplice in donne nullipare: studio prospettico di coorte, Chappell et al
Ecco il paragrafo pertinente:
Abbiamo diviso il set di dati di 5628 donne in tre parti: un set di dati di esplorazione di due terzi delle donne provenienti da Australia e Nuova Zelanda, scelti a caso (n = 2129); un set di dati di replica locale del terzo rimanente di donne provenienti da Australia e Nuova Zelanda (n = 1067); e un set di dati di conferma esterno, geograficamente distinto, di 2432 donne europee del Regno Unito e della Repubblica d'Irlanda.
Tornando un po 'indietro nella letteratura, c'è un buon articolo di Altman e altri intitolato "Prognosi e ricerca prognostica: convalida di un modello prognostico" che va molto più in profondità e suggerisce modi per assicurarsi di non cadere in questo errore. I "punti principali" dell'articolo:
I modelli non validati non dovrebbero essere usati nella pratica clinica Quando si convalida un modello prognostico, si dovrebbero valutare la calibrazione e la discriminazione. La validazione dovrebbe essere fatta su dati diversi da quelli usati per sviluppare il modello, preferibilmente da pazienti in altri centri. I modelli potrebbero non funzionare bene nella pratica a causa di carenze nei metodi di sviluppo o perché il nuovo campione è troppo diverso dall'originale
Nota in particolare il suggerimento che la convalida deve essere eseguita (parafrasando) con i dati provenienti da altre fonti , ovvero non è sufficiente suddividere i dati in modo arbitrario in sottoinsiemi, ma dovresti fare il possibile per dimostrare che "apprendere" sul set da un set di esperimenti può essere applicato ai dati di una diversa serie di esperimenti. È una barra più alta, ma riduce ulteriormente il rischio che un errore sistematico nella configurazione crei "risultati" che non possono essere verificati in modo indipendente.
È un argomento molto importante - grazie per aver posto la domanda!