Proporrò questa domanda per mezzo di un esempio.
Supponiamo di avere un set di dati, come il set di dati sui prezzi delle case di Boston, in cui ho variabili continue e categoriche. Qui abbiamo una variabile di "qualità", da 1 a 10, e il prezzo di vendita. Posso separare i dati in case di qualità "bassa", "media" e "alta" creando (arbitrariamente) valori limite per la qualità. Quindi, usando questi raggruppamenti, posso tracciare gli istogrammi del prezzo di vendita l'uno contro l'altro. Così:
Qui, "basso" è e "alto" è > 7 sul punteggio "qualità". Ora disponiamo di una distribuzione dei prezzi di vendita per ciascuno dei tre gruppi. È chiaro che c'è una differenza nel centro della posizione per le case di media e alta qualità. Ora, dopo aver fatto tutto questo, penso "Hm. Sembra esserci una differenza nel centro della posizione! Perché non faccio un test t sui mezzi?". Quindi, ottengo un valore p che sembra rifiutare correttamente l'ipotesi nulla che non ci sia differenza nelle medie.
Supponiamo ora che non avevo in mente nulla per testare questa ipotesi fino a quando non ho tracciato i dati.
Il dragaggio di questi dati?
Sono ancora dati di dragaggio se ho pensato: "Hm, scommetto che le case di qualità più alta costano di più, dal momento che sono un essere umano che ha vissuto in una casa prima. Ho intenzione di tracciare i dati. Ah ah! Sembra diverso! Tempo per t-test! "
Naturalmente, non è un dragaggio dei dati se il set di dati è stato raccolto con l'intenzione di testare questa ipotesi fin dall'inizio. Ma spesso si deve lavorare con i set di dati che ci vengono forniti e viene detto di "cercare schemi". Come si evita il dragaggio dei dati tenendo presente questo vago compito? Creare set di controllo per i dati di test? La visualizzazione "conta" come snooping per l'opportunità di testare un'ipotesi suggerita dai dati?