Quando ha senso l'approccio "go get more data" di Fisher?

26

Presumibilmente, un ricercatore una volta si è avvicinato a Fisher con risultati "non significativi", chiedendogli cosa avrebbe dovuto fare, e Fisher ha detto, "vai a prendere più dati".

Dal punto di vista di Neyman-Pearson, si tratta di una palese $p$ -hacking, ma c'è un caso d'uso in cui l'approccio di Google get-get-more-data ha senso?

— nalzok
fonte

10

Fisher (ripetutamente) ha sottolineato l'importanza della replica degli esperimenti e mi aspetto che questo fosse il suo intento (supponendo che la conversazione fosse avvenuta). Certamente Fisher sarebbe stato ben consapevole che non si può verificare la significatività e quindi espandere il campione iniziale se non lo si fosse ottenuto.

— Glen_b

@Glen_b Ho già sentito la frase "replica di esperimenti" ma non l'ho capito bene. Puoi elaborare? Diciamo, sono dieci repliche di un esperimento le cui dimensioni del campione sono 10 migliori di un singolo esperimento le cui dimensioni del campione sono 100?

— nalzok,

Nello studio esplorativo, ottenere ulteriori dati può essere accettabile. Nello studio di conferma, non esiste una posizione per ottenere più dati.

— user158565

5

Una delle mie opinioni controverse sulla pratica statistica è che mentre è importante considerare il problema dei falsi positivi, non dovremmo mettere i tassi di errore di tipo 1 su un piedistallo così alto che ci rifiutiamo di imparare dai dati al fine di preservare un tipo 1 tasso di errore.

— Cliff AB,

29

Il paradigma frequentista è una fusione delle opinioni di Fisher e Neyman-Pearson. Solo usando un approccio e un'altra interpretazione sorgono problemi.

A chiunque dovrebbe sembrare strano che raccogliere più dati sia problematico, poiché più dati sono più prove. In effetti, il problema non sta nel raccogliere più dati, ma nell'usare il valore $p$ per decidere di farlo, quando è anche la misura di interesse. La raccolta di più dati basati sul $p$ -value è solo $p$ -hacking se si calcola un nuovo $p$ -value.

Se non hai prove sufficienti per trarre una conclusione soddisfacente sulla domanda di ricerca, allora ottieni più dati. Tuttavia, ammetti che ora hai superato la fase NHST della tua ricerca e concentrati invece sulla quantificazione dell'effetto di interesse.

Una nota interessante è che i bayesiani non soffrono di questo dilemma. Considerare quanto segue come esempio:

Se un frequentatore non conclude alcuna differenza significativa e passa a un test di equivalenza, sicuramente il tasso di falsi positivi è aumentato;
Un bayesiano può esprimere contemporaneamente l'intervallo di densità più elevato e la regione di equivalenza pratica di una differenza e dormire la stessa notte.

— Frans Rodenburg
fonte

Quindi, in sostanza, dico che voglio verificare se la media della popolazione A è uguale a quella della popolazione B. Inizialmente, ottengo alcuni dati, eseguo un test per

: "i mezzi sono uguali" e non riesco a respingerlo. In questo caso, non dovrei condurre un altro test per

: "i mezzi NON sono uguali". Tutto quello che posso fare è stimare gli intervalli confidenziali dei mezzi, è corretto? Cosa succede se non vi è sovrapposizione tra i due intervalli?

H_{0}

$H_0$

H_{0}

$H_0$

— nalzok,

6

"È solo p-hacking se si calcola un nuovo valore p." Questo non dipende in realtà interamente dal metodo utilizzato per calcolare il valore p? Ignorare l'analisi sequenziale e la decisione di raccogliere più dati comporterà un valore p impreciso. Tuttavia, se si incorpora la regola decisionale per raccogliere più dati nel calcolo del valore p, si produrrà un valore p valido.

— jsk,

4

@jsk Penso che sia meno che i valori p successivamente calcolati siano in qualche modo non validi, e più che stai usando uno standard arbitrario e non guidato dai dati per giudicare quando il tuo esperimento è "corretto" e la tua ricerca su quel progetto è " fatto". Decidendo che tutti non significativi valori di p sono sbagliate, e la raccolta di dati fino ad ottenere uno che è significativo e poi fermarsi, perché hai ottenuto il risultato "giusto" è il contrario della scienza sperimentale.

— Upper_Case-Stop danneggiando Monica il

1

@Upper_Case Stavo commentando una sezione molto piccola del post per quanto riguarda p-hacking, motivo per cui ho incluso quella sezione tra virgolette. Stai leggendo troppo nella mia affermazione. Il mio punto è che QUALSIASI regola di decisione utilizzata per decidere di raccogliere più dati deve essere incorporata nel calcolo del valore p. Finché si incorporano le decisioni prese nel calcolo del valore p, è comunque possibile condurre un NHST valido se lo si desidera. Ciò non significa in alcun modo che sto sostenendo una regola di arresto che dice "raccogliere più dati fino a quando non si trova un risultato significativo".

— jsk,

@jsk Ah, ora capisco meglio il tuo punto. Grazie per il chiarimento.

— Upper_Case-Stop danneggiando Monica il

10

Data una dimensione del campione abbastanza grande, un test mostrerà sempre risultati significativi, a meno che la dimensione reale dell'effetto sia esattamente zero, come discusso qui . In pratica, la vera dimensione dell'effetto non è zero, quindi la raccolta di più dati alla fine sarà in grado di rilevare le differenze più minuscole.

La risposta facetious (IMO) di Fisher era in risposta a una domanda relativamente banale che nella sua premessa sta fondendo "differenza significativa" con "differenza praticamente rilevante".

Sarebbe equivalente a un ricercatore che viene nel mio ufficio e mi chiede "Ho pesato questo peso di piombo etichettato '25 grammi 'e misurava 25,0 grammi. Credo che sia etichettato erroneamente, cosa dovrei fare?" A cui ho potuto rispondere: "Ottieni una scala più precisa".

Credo che l'approccio go-get-more-data sia appropriato se il test iniziale è tristemente sottodimensionato per rilevare l'entità della differenza che è praticamente rilevante.

— Underminer
fonte

Il punto però è che è necessario incorporare la decisione di ottenere più dati nel calcolo del valore p.

— jsk

@jsk anche se cambi il valore p, puoi comunque raccogliere più dati per trovare un risultato significativo (anche se avresti bisogno di ancora più dati).

— Underminer,

1

Avrei potuto essere più chiaro. Non sono sicuro di cosa significhi esattamente "PUOI ancora raccogliere più dati per trovare un risultato significativo". Lo capisco perché l'ipotesi nulla in genere non è mai realmente vera, la raccolta di più dati alla fine porterà a un risultato significativo. Volevo solo attirare l'attenzione sul fatto che quando si calcola il valore p, è necessario incorporare la decisione di raccogliere più dati nel calcolo del valore p. Ciò significa che le regole decisionali (sulla raccolta di più dati) devono essere pre-specificate prima della raccolta dei dati originali.

— jsk,

@jsk anche con un metodo molto conservativo di regolazione del valore p (es. Bonferroni corretto, applicabile nell'analisi post-hoc), esiste una dimensione del campione aggiuntiva abbastanza grande da superare la correzione. Il punto è: se mi fornisci un metodo di aggiustamento del valore p (specificato prima della raccolta dei dati originali o meno), la vera differenza tra le distribuzioni della popolazione dei gruppi di interesse e risultati preliminari insignificanti; e posso fornirti una dimensione del campione abbastanza grande da ottenere risultati significativi. Quindi, più dati è SEMPRE una risposta.

— Underminer

7

Grazie. Ci sono un paio di cose da tenere a mente qui:

La citazione può essere apocrifa.
È abbastanza ragionevole ottenere più / migliori dati o dati da una fonte diversa (scala più precisa, cfr. @ Risposta di Underminer ; situazione o controlli diversi; ecc.), Per un secondo studio (cfr. @ Commento di Glen_b ) . Cioè, non analizzeresti i dati aggiuntivi insieme ai dati originali: supponiamo che tu abbia N = 10 con un risultato non significativo, potresti raccogliere altri dati N = 20 e analizzarli da soli (non testando tutti i 30 insieme ). Se la citazione non fosse apocrifa, avrebbe potuto essere ciò che Fisher aveva in mente.
La filosofia scientifica di Fisher era essenzialmente popperiana . Cioè, il nulla non era necessariamente qualcosa da rifiutare in modo perfetto per confermare la tua teoria, ma idealmente potrebbe essere la tua stessa teoria, tale che il rifiuto significa che la tua teoria da compagnia è sbagliata e devi tornare al tavolo da disegno. In tal caso, l'inflazione dell'errore di tipo I non gioverebbe al ricercatore. (D'altra parte, questa interpretazione taglia contro Fisher dando questo consiglio a meno che non fosse un litigio, che non sarebbe stato fuori dal personaggio.)
In ogni caso, vale la pena sottolineare che il motivo per cui ho incluso quel commento è che illustra qualcosa di fondamentale sulla differenza nella natura dei due approcci.

— gung - Ripristina Monica
fonte

1

p

$p$

A proposito, sarebbe bello se potessi approfondire "la differenza nella natura dei due approcci". Il metodo di Fisher sembra più ... soggettivo, poiché sento che non gli importa davvero del tasso di errore, ma potrei mancare qualcosa.

— nalzok,

1

@nalzok, la differenza è discussa nel thread originale: l'approccio Neyman-Pearson presuppone che lo studio sia un evento discreto, lo fai e vai via; L'approccio di Fisher presuppone che il problema sia oggetto di continue indagini. Ri: # 2, se analizzi i dati in modo isolato, non si tratta di p-hacking (a meno che tu non esegua più studi e pubblichi solo quello che ha mostrato ciò che desideri). Ri: # 3, no, il null non è accettato, devi continuare a trovare modi migliori per testare la tua teoria.

— gung - Ripristina Monica

1

p

$p$

p

$p$

1

(+1) A volte penso che ci concentriamo sull'albero e ci manchi la foresta. Abbastanza francamente, quando abbiamo un problema difficile, di solito più dati sono meglio di meno dati. Nella maggior parte dei casi, più dati non è molto meglio. Come suggerisce l'insightful paper del 2018 di Meng "Paradisi statistici e paradossi nei big data (I) ", ottenere dati migliori (ad esempio un campione ben selezionato) è molto più vantaggioso di dati più grandi quando stiamo cercando di stimare una quantità sconosciuta. Ma più dati di solito aiutano!

— usεr11852 dice Reinstate Monic il

6

Ciò che chiamiamo P-hacking è applicare più volte un test di significatività e riportare solo i risultati di significatività. Se questo è buono o cattivo dipende dalla situazione.

Per spiegare, pensiamo ai veri effetti in termini bayesiani, piuttosto che a ipotesi nulle e alternative. Finché crediamo che i nostri effetti di interesse provengano da una distribuzione continua, allora sappiamo che l'ipotesi nulla è falsa. Tuttavia, nel caso di un test su due lati, non sappiamo se sia positivo o negativo. Sotto questa luce, possiamo pensare ai valori di p per i test su due lati come una misura di quanto forte sia l'evidenza che la nostra stima ha la direzione corretta (cioè, effetto positivo o negativo).

$p < \alpha$ ), la probabilità di ottenere la direzione corretta dovrebbe essere maggiore della probabilità di ottenere la direzione errata (a meno che non si abbia qualche test davvero pazzo, davvero pessimo), sebbene la dimensione dell'effetto si avvicina a zero, la probabilità condizionata di ottenere la direzione corretta dato che l'evidenza sufficiente si avvicina a 0,5.

Ora, considera cosa succede quando torni indietro per ottenere più dati. Ogni volta che ottieni più dati, aumenta solo la tua probabilità di ottenere la direzione corretta in base a dati sufficienti. Quindi, in questo scenario, dovremmo renderci conto che ottenendo più dati, sebbene in realtà stiamo aumentando la probabilità di un errore di tipo I, stiamo anche riducendo la probabilità di concludere erroneamente la direzione sbagliata.

Prendi questo in contrasto con l'abuso più tipico di P-hacking; testiamo centinaia di dimensioni di effetti che hanno buone probabilità di essere molto piccole e riportiamo solo quelle significative. Nota che in questo caso, se tutti gli effetti sono piccoli, abbiamo una probabilità quasi del 50% di sbagliare la direzione quando dichiariamo il significato.

Ovviamente, i valori p prodotti da questo raddoppio dei dati dovrebbero ancora venire con un granello di sale. Mentre, in generale, non dovresti avere problemi con le persone che raccolgono più dati per essere più sicuri sulla dimensione dell'effetto, questo potrebbe essere abusato in altri modi. Ad esempio, un PI intelligente potrebbe rendersi conto che invece di raccogliere tutti i 100 punti dati contemporaneamente, potrebbero risparmiare un sacco di soldi e aumentare la potenza raccogliendo prima 50 punti dati, analizzandoli e quindi raccogliendo i successivi 50 se non è significativo . In questo scenario, aumentano la probabilità che la direzione dell'effetto sia erroneamente subordinata alla dichiarazione di significatività, poiché hanno maggiori probabilità di sbagliare la direzione dell'effetto con 50 punti dati che con 100 punti dati.

E infine, considera le implicazioni di non ottenere più dati quando abbiamo un risultato insignificante. Ciò implicherebbe mai la raccolta di ulteriori informazioni sull'argomento, che non spingerà davvero la scienza in avanti, vero? Uno studio sottodimensionato ucciderebbe un intero campo.

— Cliff AB
fonte

1

(+1) Questo è un punto di vista interessante, ma puoi approfondire la differenza tra la metodologia di Fisher e quella del PI intelligente? Entrambi raccolgono più dati perché il test iniziale è insignificante, a quanto pare.

— nalzok,

Inoltre, non sono sicuro di cosa intendi per "sebbene in realtà stiamo aumentando la probabilità di un errore di tipo I, stiamo anche riducendo la probabilità di concludere erroneamente la direzione sbagliata". Qual è l'ipotesi nulla qui? IMO se stai facendo un test unilaterale, quindi "concludere la direzione sbagliata" è "un errore di tipo I", e per i test bilaterali, non dovresti concludere la direzione.

— nalzok,

Correggimi se sbaglio, ma penso che tu suggerisca di continuare a raccogliere più dati fino a quando un test su due lati è significativo e, in questo caso, il tasso di errore di tipo I sarebbe del 100%.

— nalzok,

1

La differenza chiave tra ciò che Fisher raccomanda e l'IP intelligente / ingenuo è che Fisher fa appello allo studio che si sta concludendo. Le sue opzioni sono o raccogliere più dati o decidere che non potrà mai conoscere la direzione dell'effetto. D'altra parte, il PI decide di sottodimensionare il suo studio iniziale prima ancora di vedere i dati.

— Cliff AB,

1

@nalzok: sicuro che proverò a dare un'occhiata durante le ore non lavorative :)

— Cliff AB

1

Se l'alternativa avesse una piccola probabilità a priori , un esperimento che non respingesse il nulla lo ridurrebbe ulteriormente, rendendo ogni ulteriore ricerca ancora meno conveniente. Ad esempio, supponiamo che la probabilità a priori sia 0,01. Quindi la tua entropia è di 0,08 bit. Se la probabilità si riduce a .001, la tua entropia è ora .01. Pertanto, continuare a raccogliere dati spesso non è conveniente. Uno dei motivi per cui sarebbe conveniente sarebbe che la conoscenza è così importante che vale la pena ridurre anche i rimanenti .01 bit di entropia.

Un altro motivo sarebbe se la probabilità a priori fosse davvero alta. Se la tua probabilità a priori era superiore al 50%, non riuscire a rifiutare il nulla aumenta la tua entropia, rendendo più conveniente continuare a raccogliere dati. Un esempio potrebbe essere quando sei quasi sicuro che ci sia un effetto, ma non sai in quale direzione.

Ad esempio, se sei un agente di controspionaggio e sei sicuro che un dipartimento ha una talpa e l'hai ridotto a due sospetti e stai facendo alcune analisi statistiche per decidere quale, allora un risultato statisticamente insignificante giustificherebbe la raccolta più dati.

— Acccumulation
fonte

Perché non rifiutare il null diminuisce la sua probabilità? Mentre l'assenza di prove non è una prova di assenza, non riesco a capire perché sia una prova contro l' assenza.

— nalzok,

@nalzok Ho scritto "Se l'alternativa aveva una piccola probabilità a priori, allora un esperimento che non riesce a rifiutare il null lo ridurrà ulteriormente" Mentre "null" è il nome più vicino a "esso", il null non è una quantità e pertanto non può essere ridotto e non è un antecedente valido per "esso". Inoltre "ulteriore" indica che "esso" si riferisce a qualcosa di già piccolo. Questi fatti indicano che l'antecedente di "esso" è la "piccola probabilità a priori" dell'alternativa.

— Accumulazione