Esecuzione di un test statistico dopo aver visualizzato i dati - dragaggio dei dati?


31

Proporrò questa domanda per mezzo di un esempio.

Supponiamo di avere un set di dati, come il set di dati sui prezzi delle case di Boston, in cui ho variabili continue e categoriche. Qui abbiamo una variabile di "qualità", da 1 a 10, e il prezzo di vendita. Posso separare i dati in case di qualità "bassa", "media" e "alta" creando (arbitrariamente) valori limite per la qualità. Quindi, usando questi raggruppamenti, posso tracciare gli istogrammi del prezzo di vendita l'uno contro l'altro. Così:

qualità abitativa e prezzo di vendita

Qui, "basso" è e "alto" è > 7 sul punteggio "qualità". Ora disponiamo di una distribuzione dei prezzi di vendita per ciascuno dei tre gruppi. È chiaro che c'è una differenza nel centro della posizione per le case di media e alta qualità. Ora, dopo aver fatto tutto questo, penso "Hm. Sembra esserci una differenza nel centro della posizione! Perché non faccio un test t sui mezzi?". Quindi, ottengo un valore p che sembra rifiutare correttamente l'ipotesi nulla che non ci sia differenza nelle medie.3>7

Supponiamo ora che non avevo in mente nulla per testare questa ipotesi fino a quando non ho tracciato i dati.

Il dragaggio di questi dati?

Sono ancora dati di dragaggio se ho pensato: "Hm, scommetto che le case di qualità più alta costano di più, dal momento che sono un essere umano che ha vissuto in una casa prima. Ho intenzione di tracciare i dati. Ah ah! Sembra diverso! Tempo per t-test! "

Naturalmente, non è un dragaggio dei dati se il set di dati è stato raccolto con l'intenzione di testare questa ipotesi fin dall'inizio. Ma spesso si deve lavorare con i set di dati che ci vengono forniti e viene detto di "cercare schemi". Come si evita il dragaggio dei dati tenendo presente questo vago compito? Creare set di controllo per i dati di test? La visualizzazione "conta" come snooping per l'opportunità di testare un'ipotesi suggerita dai dati?

Risposte:


27

In breve disaccordo con / dare un contrappunto alla risposta di @ ingolifs: sì, visualizzare i tuoi dati è essenziale. Ma visualizzare prima di decidere l'analisi ti porta nel giardino dei percorsi di biforcazione di Gelman e Loken . Questo non è lo stesso del dragaggio dei dati o dell'hacking p, in parte per intento (il GoFP è in genere ben intenzionato) e in parte perché non è possibile eseguire più di un'analisi. Ma è una forma di snooping: poiché l'analisi dipende dai dati, può portare a conclusioni false o eccessive.

Dovresti in qualche modo determinare qual è la tua analisi prevista (ad esempio "le case di alta qualità dovrebbero avere un prezzo più alto") e scriverle (o anche preregistrarle ufficialmente) prima di guardare i tuoi dati (è OK guardare le variabili del tuo predittore in avanzare, non solo le variabili di risposta, ma se davvero non hai idee a priori , non sai nemmeno quali variabili potrebbero essere predittori e quali potrebbero essere risposte); se i tuoi dati suggeriscono analisi diverse o aggiuntive, il tuo articolo può indicare sia che cosa intendevi fare inizialmente sia che cosa (e perché) hai finito per farlo.

Se stai davvero facendo pura esplorazione (cioè, non hai ipotesi a priori , vuoi solo vedere cosa c'è nei dati):

  • i tuoi pensieri su come dare un campione per la conferma sono buoni.
    • Nel mio mondo (non lavoro con enormi set di dati) la perdita di risoluzione dovuta alla dimensione del campione inferiore sarebbe angosciante
    • devi fare un po 'di attenzione nel selezionare il tuo campione di controllo se i tuoi dati sono strutturati in qualche modo (geograficamente, serie storiche, ecc.). Il sottocampionamento come se i dati venissero portati a un'eccessiva fiducia (vedi Metodi Wenger e Olden in Ecology and Evolution 2012), quindi potresti voler scegliere le unità geografiche da tenere (vedi Metodi DJ Harris in Ecology and Evolution 2015 per un esempio)
  • puoi ammettere che sei puramente esplorativo. Idealmente, in questo caso dovresti evitare i valori p, ma almeno dire al tuo pubblico che stai vagando nel GoFP fa loro sapere che possono prendere i valori p con enormi chicchi di sale.

Il mio riferimento preferito per "pratiche statistiche sicure" è Harrell Regressione Modeling Strategies (Springer) di ; espone le migliori pratiche per inferenza contro predizione contro esplorazione, in modo rigoroso ma pratico.


4
Molto ben messo! Mi aspetto di indirizzare le persone a questa risposta in futuro.
Great38

Esattamente il tipo di risposta che stavo cercando, grazie. Ho accreditato questa risposta come risposta. Conosci risorse che insegnano pratiche statistiche sicure? Forse un po 'più ampio rispetto agli (eccellenti) articoli che hai pubblicato
Marcel

Ottima risposta (+1), ma non sono d'accordo sul fatto che questo sia diverso dal dragaggio dei dati; l'intenzione è irrilevante - l'effetto è lo stesso.
Ripristina Monica il

In realtà penso che valga la pena mantenere la distinzione tra diverse forme di snooping. Il dragaggio è probabilmente più grave perché comporta (1) più test espliciti anziché più test impliciti e (2) test condizionali / continui fino a quando non si ottiene p <0,05 (o qualsiasi altra cosa). L'effetto qualitativo è sicuramente lo stesso.
Ben Bolker,

11

La visualizzazione dei dati è una parte indispensabile dell'analisi e una delle prime cose da fare con un set di dati sconosciuto. Un rapido bulbo oculare dei dati può informare i passi da compiere successivamente. In effetti, dovrebbe essere abbastanza ovvio osservando il grafico che i mezzi sono diversi e non sono sicuro del motivo per cui è stato necessario un test T per confermare ciò: i mezzi sono sufficientemente separati che il grafico stesso è tutta l'evidenza che vorrei richiedere.

R2

Penso che ci sia una domanda più profonda qui dentro. Come mantenete una neutralità simile allo zen ed evitate i pregiudizi quando trattate i dati in modo scientifico? La risposta è no. O meglio, non è necessario. Formare intuizioni e ipotesi e costruire una narrazione mentale di ciò che i dati significano, è tutto perfettamente naturale e accettabile, a condizione che tu sia consapevole che lo stai facendo e che sei mentalmente preparato a riconsiderare tutte queste ipotesi di fronte a dati contrastanti.


7
La visualizzazione dei dati prima di eseguire i test può essere innocua in questo caso specifico. Tuttavia, uno visualizzerebbe successivamente un'altra dimensione ... e un'altra ... e guarderebbe i diagrammi a dispersione ... e abbastanza presto, si troverà qualcosa che sembra "abbastanza ovvio" in modo che un test formale e una narrazione diventino naturali. Oh sì, il dragaggio dei dati è sicuramente qualcosa che puoi facilmente fare per caso. Vedi il "Giardino dei sentieri di biforcazione" di Gelman .
S. Kolassa - Ripristina Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.