Il ricercatore 1 esegue 1000 regressioni, il ricercatore 2 esegue solo 1, entrambi ottengono gli stessi risultati: dovrebbero fare inferenze diverse?

Immagina che un ricercatore stia esplorando un set di dati ed esegua 1000 diverse regressioni e trova una relazione interessante tra loro.

Ora immagina che un altro ricercatore con gli stessi dati esegua solo 1 regressione e si scopre che è lo stesso che l'altro ricercatore ha impiegato 1000 regressioni per trovare. Il ricercatore 2 non conosce il ricercatore 1.

Il ricercatore 1 dovrebbe fare inferenze diverse rispetto al ricercatore 2? Perché? Ad esempio, il ricercatore 1 dovrebbe eseguire la correzione di confronti multipli, ma il ricercatore 2 non dovrebbe?

Se il ricercatore 2 mostrasse prima la sua unica regressione, quali inferenze faresti? Se dopo quel ricercatore 1 ti mostrassi i suoi risultati, dovresti cambiare la tua deduzione? Se è così, perché dovrebbe importare?

PS 1 : se parlare di ipotetici ricercatori rende il problema astratto, pensa a questo: immagina di aver eseguito solo una regressione per il tuo articolo, usando il miglior metodo disponibile. Quindi un altro ricercatore ha esplorato 1000 regressioni diverse con gli stessi dati, fino a quando non ha trovato la stessa regressione che hai eseguito . Dovreste fare due inferenze diverse? Le prove sono le stesse per entrambi i casi o no? Dovresti cambiare la tua deduzione se conoscessi i risultati di altri ricercatori? In che modo il pubblico dovrebbe valutare l'evidenza dei due studi?

PS 2: cerca di essere specifico e di fornire una giustificazione matematica / teorica, se possibile!

— statslearner
fonte

Per essere un confronto valido è necessario specificare tutte le ipotesi null e alternative. Il ricercatore 2 può solo verificare 1 ipotesi mentre il ricercatore 1 probabilmente vuole controllarti la probabilità di non commettere 1 errore di tipo 1 su 1000. Se questa è l'inferenza simultanea che vuoi fare, devi fare la regolazione del valore p. Il ricercatore 2 ha un test e non è necessario alcun aggiustamento. Per il ricercatore 1 stai adattando modelli diversi agli stessi dati o un modello adatto a ciascuno dei 1000 set di dati?

— Michael R. Chernick,

@MichaelChernick c'è solo un set di dati. Il ricercatore 1 adatta 1000 modelli per lo stesso set di dati fino a quando non trova quello che gli piace. Il ricercatore 2 ha inserito solo 1. Entrambi i ricercatori utilizzano gli stessi dati. Quindi diresti che questi due ricercatori dovrebbero concludere cose diverse con lo stesso set di dati esatto? Il ricercatore 2 dovrebbe essere giustamente fiducioso della sua analisi, mentre il ricercatore 1 dovrebbe gonfiare i suoi intervalli di valore p / confidenza a causa di confronti multipli?

— statslearner il

Se hai seguito la mia tesi, lo fanno nel senso che solo il ricercatore 2 sta testando una singola ipotesi mentre il ricercatore 1 sta testando 1000 ipotesi e deve controllare tutte le ipotesi che ha testato. Si tratta di due problemi diversi. Ciò che è ancora vago è ciò che intendi per "trovare solo una relazione interessante". Forse pensi di aver posto una situazione paradossale. Non penso che tu abbia.

— Michael R. Chernick,

@MichaelChernick in che modo non è paradossale che gli stessi identici dati con lo stesso identico modello portino a due conclusioni diverse? Se leggessi i due documenti separati, cosa concluderesti?

— statslearner,

@MichaelChernick L'ho fatto e trovo preoccupante che tu pensi che sia corretto --- gli stessi identici dati, con lo stesso identico modello, portando a due diverse conclusioni. Vedi i miei commenti sulla risposta.

— statslearner,

Risposte:

$1000$

$P (M_k|I_1)=\frac {1}{1000}$ $P (M_1|I_2) =1$ $M_1$

$M_1$ $P (M_1|DI)>>P (M_1|I)$ $999$ $1$ $M_1$ $1000$ $1000$ $0$ $p-value <10^{-8}$

$100$ $10$ $2,000,000$

Non c'è nulla di fondamentalmente sbagliato in due persone che iniziano con informazioni diverse e continuano ad avere conclusioni diverse dopo aver visto gli stessi dati. Tuttavia ... vedere gli stessi dati li avvicinerà, purché il loro "spazio modello" si sovrapponga e i dati supportino questa "regione sovrapposta".

— probabilityislogic
fonte

Quindi la parte fondamentale della tua affermazione è che dovrebbero fare un'inferenza diversa perché hanno diversi priori, e non perché quanto "esplorano i dati", giusto?

— statslearner il

A proposito, come faresti tu valutare le prove? Ti interesserebbe il numero di modelli montati da researcher 1? Se è così, perché?

— statslearner il

Non mi importerebbe necessariamente del numero di modelli adatti, ma se il modello utilizzato è noto o meno con un certo grado di certezza. Come menzionerò brevemente, vorrei sapere se c'erano alternative ragionevoli. Ad esempio, se il ricercatore 1 prendesse una decisione "line ball" in merito alla caduta / aggiunta di una variabile, vorrei vedere quella menzionata.

— probabilityislogic

Perché vorresti vedere quello menzionato, che cambierebbe in qualche modo il tuo precedente? Lo stai usando come proxy per te prima? Non è chiaro per me la mappatura che stai realizzando. Perché le ragioni di un particolare ricercatore sono importanti per la tua deduzione, dal momento che non influisce affatto sul processo di generazione dei dati?

— statslearner,

Stiamo considerando che il set di dati qui è esterno al ricercatore, non lo ha raccolto ed entrambi i ricercatori utilizzano gli stessi dati. Sembra che i motivi risultati non possono essere replicati in psicologia è perché basta usare soglie di rilevanza sciolti come la serie di prove per giudicare diverse ipotesi pazzo qualsiasi ragionevole persona / scienziato avrebbe trovato loro una ridicola priori. Prendiamo qui il nostro caso, se l'ipotesi verificata nel nostro esempio è qualcosa di ridicolo in una posizione così potente, importerebbe se abbiamo eseguito 1 o 1000 regressioni?

— statslearner,

L'interpretazione statistica è molto meno chiara di quella che stai chiedendo, il trattamento matematico.

La matematica riguarda problemi chiaramente definiti. Ad esempio lanciando un dado perfetto o tirando palle da un'urna.

La statistica è la matematica applicata in cui la matematica fornisce una linea guida ma non è la soluzione (esatta).

In questo caso è ovvio che le circostanze svolgono un ruolo importante. Se eseguiamo una regressione e quindi calcoliamo (matematica) un valore p per esprimere la forza, allora qual è l'interpretazione (statistica) e il valore del valore p?

Nel caso delle 1000 regressioni eseguite dal ricercatore 1, il risultato è molto più debole poiché questo tipo di situazione si verifica quando non abbiamo davvero un indizio e stiamo solo esplorando i dati. Il valore p è solo un'indicazione che potrebbe esserci qualcosa.

Quindi il valore di p ha ovviamente meno valore nella regressione eseguita dal ricercatore 1. E se il ricercatore 1 o qualcuno che utilizza i risultati del ricercatore 1 desidera fare qualcosa con la regressione, allora il valore di p deve essere corretto. (e se pensavi che la differenza tra il ricercatore 1 e il ricercatore 2 non fosse sufficiente, pensa solo alla moltitudine di modi in cui il ricercatore 1 può correggere il valore p per confronti multipli)
Nel caso della singola regressione eseguita dal ricercatore 2 il risultato è una prova molto più forte. Questo perché la regressione non si regge da sola. Dobbiamo includere i motivi per cui il ricercatore 2 ha fatto solo una singola regressione. Ciò potrebbe essere dovuto al fatto che aveva buone (ulteriori) ragioni per ritenere che la singola regressione fosse un buon modello per i dati.
L'impostazione delle regressioni eseguite dal ricercatore 1 e 2 è molto diversa, e spesso non si incontrano entrambi contemporaneamente per lo stesso problema. Se questo è il caso, allora
- il ricercatore 2 è stato molto fortunato
  
  Questo non è così raro, e dovremmo correggerlo meglio nell'interpretazione della letteratura, e dovremmo anche migliorare la pubblicazione del quadro complessivo della ricerca. Se ci sono un migliaio di ricercatori come il ricercatore 2, e vedremo solo uno di loro pubblicare un successo, allora poiché non abbiamo visto i fallimenti degli altri 999 ricercatori, potremmo erroneamente credere di non avere un caso come il ricercatore 1
- il ricercatore 1 non era così intelligente e fece una ricerca incredibilmente superflua per un po 'di regressione mentre avrebbe potuto probabilmente sapere dall'inizio che avrebbe dovuto essere quello singolo e avrebbe potuto eseguire un test più forte.
  
  Per gli estranei che sono più intelligenti del ricercatore 1 (non preoccuparsi delle ulteriori 999 regressioni dall'inizio) e leggere il lavoro, potrebbero dare più forza al significato dei risultati, anche se non sono così forti come farebbe per il risultato del ricercatore 2.
  
  Mentre il ricercatore 1 potrebbe essere stato troppo conservatore nel correggere 999 regressioni aggiuntive superflue, non possiamo ignorare il fatto che la ricerca è stata condotta nel vuoto della conoscenza ed è molto più probabile trovare un fortunato ricercatore del tipo 1 rispetto al tipo 2.

Un'interessante storia correlata: in astronomia, quando stavano progettando uno strumento migliore per misurare lo sfondo cosmico con maggiore precisione, c'erano ricercatori che sostenevano di rilasciare solo metà dei dati. Questo perché c'è un solo colpo per raccogliere dati. Una volta che tutte le regressioni sono state eseguite da dozzine di ricercatori diversi (e a causa dell'incredibile variazione e creatività del teorico, c'è sicuramente un certo adattamento a ogni possibile, casuale, bump nei dati), non c'è possibilità di eseguire un nuovo esperimento da verificare (ovvero, a meno che tu non sia in grado di generare un universo completamente nuovo).

— Sesto Empirico
fonte

+1 per @MartijnWeterings, come ho detto nei miei commenti, il problema non era ben posto matematicamente. Ho avuto l'impressione che il PO pensasse che ci fosse un paradosso perché i due ricercatori sarebbero stati portati alla stessa scelta del modello, ma quello che ha fatto 1000 regressioni è penalizzato a causa della necessità di un problema di confronto multiplo. Non lo vedo affatto come un paradosso (non chiaro ma penso che l'OP abbia fatto). Hai dato una risposta molto ben scritta e corretta che spiega anche intuitivamente perché i due casi sono diversi. Penso che l'OP dovrebbe dare un assegno alla tua risposta!

— Michael R. Chernick,

\neq

$\neq$

Inoltre, so che questa è una pratica comune, ma non trovi preoccupante dire che un risultato è "prova più forte" dell'altro, quando sono esattamente lo stesso modello e i dati dello stesso processo di generazione dei dati? L'unica cosa diversa è quanto una terza parte ha esaminato i dati e questo non dovrebbe avere alcuna relazione con il DGP stesso o le tue precedenti convinzioni sul problema. L'analisi del ricercatore 2 dovrebbe essere contaminata dall'ignoranza del ricercatore 1, per esempio?

— statslearner,

@MartijnWeterings perché l'intenzione del ricercatore dovrebbe interessare l'interpretazione dei dati? Se lo stai usando come euristico, come laico che interpreta un risultato esperto, va bene. Ma per uno scienziato che analizza i dati, sembra che l'intenzione del ricercatore non debba influire sulla tua interpretazione delle prove.

— statslearner,

Quindi sembra che tu stia usando il comportamento del ricercatore come proxy per il tuo precedente. Se il ricercatore eseguisse 1000 regressioni, ciò corrisponderebbe a un minimo prima di quella specifica ipotesi. Se avesse eseguito solo 1, ciò corrisponderebbe a un massimo precedente a tale ipotesi. Se hai avuto i due casi, non sai quale prima dell'uso.

— statslearner,

Breve storia: non abbiamo abbastanza informazioni per rispondere alla tua domanda perché non sappiamo nulla dei metodi utilizzati o dei dati raccolti.

Risposta lunga ... La vera domanda qui è se ogni ricercatore sta facendo:

scienza rigorosa
pseudoscienza rigorosa
esplorazione di dati
dragaggio dei dati o p-hacking

I loro metodi determineranno la forza dell'interpretazione dei loro risultati. Questo perché alcuni metodi sono meno validi di altri.

Nella scienza rigorosa sviluppiamo un'ipotesi, identifichiamo variabili confondenti, sviluppiamo controlli per variabili al di fuori della nostra ipotesi, pianifichiamo metodi di prova, pianifichiamo la nostra metodologia analitica, eseguiamo test / raccogliamo dati e quindi analizziamo i dati. (Si noti che i metodi analitici sono pianificati prima che si verifichi il test). Questo è il più rigoroso perché dobbiamo accettare dati e analisi che non concordano con l'ipotesi. Non è accettabile cambiare metodo dopo il fatto di ottenere qualcosa di interessante. Qualsiasi nuova ipotesi dai risultati deve ripetere lo stesso processo.

Nella pseudoscienza spesso prendiamo i dati che sono già raccolti. Questo è più difficile da usare eticamente perché è più facile aggiungere distorsioni ai risultati. Tuttavia, è ancora possibile seguire il metodo scientifico per gli analisti etici. Tuttavia, può essere difficile stabilire controlli adeguati e questo deve essere ricercato e notato.

L'esplorazione dei dati non si basa sulla scienza. Non vi sono ipotesi specifiche. Non esiste una valutazione a priori dei fattori di confondimento. Inoltre, è difficile tornare indietro e ripetere l'analisi utilizzando gli stessi dati, poiché i risultati possono essere contaminati da conoscenze o modelli precedenti e non ci sono nuovi dati da utilizzare per la convalida. Si raccomanda un rigoroso esperimento scientifico per chiarire le possibili relazioni rilevate dall'analisi esplorativa.

Il dragaggio dei dati o P-hacking è il luogo in cui un "analista" esegue più test nella speranza di una risposta imprevista o sconosciuta o manipola i dati per ottenere un risultato. I risultati possono essere una semplice coincidenza, possono essere il risultato di variabili confondenti o potrebbero non avere dimensioni o potenza degli effetti significative.

Esistono alcuni rimedi per ogni problema, ma questi rimedi devono essere attentamente valutati.

— Adam Sampson
fonte

Credo che tu stia aggiungendo rumore inutile alla domanda. Supponiamo che abbiano usato i migliori metodi disponibili. I dati non sono stati raccolti da loro, ma da un'agenzia statistica, quindi non avevano alcun controllo sulla raccolta dei dati. L'unica differenza è quanto ogni ricercatore ha esplorato i dati. Uno di loro ha esplorato molto, l'altro ha esplorato solo una volta. Entrambi ottengono lo stesso modello finale con gli stessi dati. Dovrebbero fare inferenze diverse? E come dovrebbe influire sulla tua inferenza?

— statslearner il

Questo non è un rumore extra. La matematica è matematica. Se i modelli sono identici, allora sono identici. Il modo in cui interpreti i modelli dipende da tutte le altre variabili non incluse nel tuo problema. Se ignori tutti gli altri contesti e progetti o esperimenti, la risposta è semplice, entrambi i modelli funzionano allo stesso modo matematicamente e sono entrambi scientificamente deboli.

— Adam Sampson,