Regole di arresto opzionali non presenti nei libri di testo


16

Le regole di arresto influenzano la relazione tra i valori P e i tassi di errore associati alle decisioni. Un recente articolo di Simmons et al. Il 2011 conia il termine gradi di libertà del ricercatore per descrivere una raccolta di comportamenti che considerano responsabili di molti dei rapporti nella letteratura psicologica che sono stati trovati non riproducibili.

Di questi comportamenti, le regole di arresto opzionali o le analisi intermedie non dichiarate sono ciò a cui sono attualmente interessato. Descrivo il loro effetto sui tassi di errore per i miei studenti, ma non sembrano essere descritti nei libri di testo che i miei studenti usano (o non uso!). Nella libreria principale della mia università ci sono quattordici libri di testo statistici destinati a studenti di livello introduttivo in varie discipline come bioscienze, economia, ingegneria ecc. Solo uno di questi testi conteneva una voce di indice "test sequenziali" e nessuno aveva una voce di indice " fermare la regola ".

Esiste un manuale di statistica di livello introduttivo che spiega il problema delle regole di arresto opzionali?

Simmons, JP, Nelson, LD e Simonsohn, U. (2011). Psicologia dei falsi positivi: la flessibilità non divulgata nella raccolta e nell'analisi dei dati consente di presentare qualsiasi cosa come significativa . Scienze psicologiche, 22 (11), 1359–1366. DOI: 10,1177 / 0956797611417632


1
Il problema non scompare se elimini le statistiche del frequentatore e segui i metodi IT o bayesiano? (O anche puro apprendimento automatico, a seconda delle dimensioni del set di dati). Questo non è irriverente: il mashup incompatibile di Fisher e NP non causa altro che problemi, anche se fatto "correttamente". In futuro non ci saranno più frequentatori.
thedude

1
Sì, il problema sarebbe sparito se non ci fosse stato l'uso di metodi che dovessero rispettare il principio di frequenza. Tuttavia, un simile futuro potrebbe non arrivare in questo mondo. Che cos'è?
Michael Lew - ripristina Monica il

2
@Michael: Quasi senza dubbio (vale a dire, IT) sta per "informazione teorica".
cardinale

Su un argomento correlato: errorstatistics.com/2013/04/06/…
P.

2
@thedude utilizzando un diverso framework teorico introduce altri problemi . Il problema qui è che tutti trattano la matematica come qualcosa di diverso da una semplice descrizione del mondo. Le statistiche frequentiste sono un modo molto utile per descrivere il mondo, il bayesiano è un altro. Nessuno dei due ti fornirà un oracolo di verità .
Indulgere il

Risposte:


2

Non puoi avere una regola di arresto senza un'idea della tua distribuzione e della tua dimensione dell'effetto - che non conosci a priori.

Inoltre sì, dobbiamo concentrarci sulla dimensione dell'effetto - e non è mai stato considerato corretto considerare solo i valori p, e non dovremmo certamente mostrare tabelle o grafici che mostrano valori p o valori F piuttosto che dimensioni dell'effetto.

Ci sono problemi con il tradizionale test di inferenza sull'ipotesi statistica (che Cohen dice che è degno del suo acronimo, e Fisher e Pearson si rivolterebbero entrambi nelle tombe se vedessero tutto ciò che viene fatto oggi nei loro nomi violentemente opposti).

Per determinare N, è necessario aver già determinato un significato target e una soglia di potenza, oltre a fare molte ipotesi sulla distribuzione, e in particolare è necessario aver determinato la dimensione dell'effetto che si desidera stabilire. Indolering ha esattamente ragione che questo dovrebbe essere il punto di partenza: quale dimensione minima dell'effetto sarebbe conveniente!

La "Nuova statistica" sta proponendo di mostrare le dimensioni dell'effetto (come differenza accoppiata ove appropriato), insieme alle deviazioni standard associate o alla varianza (perché dobbiamo comprendere la distribuzione) e le deviazioni standard o gli intervalli di confidenza (ma quest'ultima è già bloccando un valore p e una decisione se si sta predendo una direzione o una scommessa a senso unico). Ma impostare un effetto minimo del segno specificato con una previsione scientifica, lo chiarisce, sebbene il default pre-scientifico sia quello di fare prove ed errori e cercare solo le differenze. Ma ancora una volta hai fatto delle ipotesi sulla normalità se vai in questo modo.

Un altro approccio consiste nell'utilizzare i grafici a scatole come un approccio non parametrico, ma le convenzioni su baffi e valori anomali variano ampiamente e anche allora si originano in ipotesi distributive.

Il problema di arresto non è in effetti un problema di impostazione di un singolo ricercatore o di non impostazione di N, ma che abbiamo un'intera comunità di migliaia di ricercatori, dove 1000 è molto più di 1 / alfa per il tradizionale livello 0,05. La risposta attualmente proposta è quella di fornire le statistiche riassuntive (media, stddev, stderr - o corrispondenti "versioni non parametriche - mediana ecc. Come nel caso del boxplot) per facilitare la meta-analisi e presentare i risultati combinati di tutti gli esperimenti se si verificano aver raggiunto o meno un determinato livello alfa.

Strettamente correlato è il problema dei test multipli, che è altrettanto irto di difficoltà e in cui gli esperimenti sono mantenuti troppo semplicistici in nome della conservazione del potere, mentre vengono proposte metodologie troppo complesse per analizzare i risultati.

Non penso che ci possa essere un capitolo di un libro di testo che affronti questo definitivamente, dato che non abbiamo ancora idea di cosa stiamo facendo ...

Per il momento, l'approccio migliore è probabilmente quello di continuare a utilizzare le statistiche tradizionali più appropriate al problema, combinate con la visualizzazione delle statistiche di riepilogo: l'effetto e l'errore standard e N è il più importante. L'uso di intervalli di confidenza è sostanzialmente equivalente al corrispondente test T, ma consente di confrontare i nuovi risultati con quelli pubblicati in modo più significativo, oltre a consentire un ethos che incoraggi la riproducibilità e la pubblicazione di esperimenti riprodotti e meta-analisi.

In termini di approcci teorici o bayesiani delle informazioni, usano strumenti diversi e fanno ipotesi diverse, ma non hanno ancora tutte le risposte, e alla fine affrontano gli stessi problemi, o peggio, perché l'inferenza bayesiana fa un passo indietro rispetto alla definizione definitiva rispondere e semplicemente aggiunge prove relative ai presupposti assunti o assenti.

L'apprendimento automatico alla fine ha anche risultati che deve prendere in considerazione per significatività - spesso con IC o T-Test, spesso con grafici, si spera che si abbini piuttosto che solo confrontando e usando versioni adeguatamente compensate quando le distribuzioni non corrispondono. Ha anche le sue controversie sul bootstrap e sulla validazione incrociata, e sulla parzialità e la varianza. Peggio ancora, ha la propensione a generare e testare miriadi di modelli alternativi semplicemente parametrizzando accuratamente tutti gli algoritmi in uno dei tanti toolbox, applicati ai set di dati accuratamente archiviati per consentire test multipli sfrenati. Peggio ancora è ancora nei secoli bui usando l'accuratezza, o peggio ancora la misura F, per la valutazione - piuttosto che metodi corretti dal caso.

Ho letto dozzine di articoli su questi temi, ma non sono riuscito a trovare nulla di totalmente convincente, tranne i sondaggi negativi o i documenti di meta-analisi che sembrano indicare che la maggior parte dei ricercatori non gestisce e interpreta le statistiche correttamente rispetto a qualsiasi "standard ", vecchio o nuovo. Potenza, test multipli, dimensionamento e arresto anticipato, interpretazione di errori standard e intervalli di confidenza, ... questi sono solo alcuni dei problemi.

Per favore, abbattimi: vorrei essere smentito! Dal mio punto di vista c'è molta acqua da bagno, ma non abbiamo ancora trovato il bambino! A questo punto nessuna delle visioni estreme o approcci di marca sembra promettente come la risposta, e quelli che vogliono buttare via tutto il resto hanno probabilmente perso il bambino.


Non si tratta di abbatterti, non credo che ci possa essere una soluzione a questi problemi. Siamo umani che riconoscono i modelli nel mondo, dobbiamo accontentarci di una validità convergente. Dopo il suo scarso tentativo di dimostrare l'esistenza di un dio, Cartesio si è stancato di una validità convergente. A volte è lì, a volte no, ma per lo più ci imbattiamo nei nostri infiniti poteri di calcolo cognitivo.
Indulgere il

1

Non credo che le "regole di arresto" facoltative siano un termine tecnico per quanto riguarda l'arresto ottimale. Tuttavia, dubito che nei libri di testo sulle statistiche della psicologia a livello intro troverai discussioni approfondite sull'argomento.

La logica cinica di ciò è che tutti gli studenti di scienze sociali hanno abilità matematiche deboli. La risposta migliore, IMHO, è che i semplici T-Test non sono appropriati per la maggior parte degli esperimenti di scienze sociali. Bisogna guardare la forza dell'effetto e capire se questo risolve le differenze tra i gruppi. Il primo può indicare che il secondo è possibile ma è tutto ciò che può fare.

Le misure di spesa per il welfare, la regolamentazione statale e l'urbanizzazione hanno tutte relazioni statisticamente significative con misure di comportamento religioso. Tuttavia, solo affermare il valore p sta inquadrando il test in una relazione causale del tutto o niente. Vedi quanto segue:

inserisci qui la descrizione dell'immagine

I risultati della spesa per il welfare e dell'urbanizzazione hanno valori p statisticamente significativi ma la spesa per il welfare è molto più fortemente correlata. Quella spesa per il welfare mostra una relazione così forte con altre misure di religiosità ( tasso non religioso e conforto nella religione ) per le quali l' urbanizzazione non raggiunge nemmeno un valore p < .10, suggerendo che l' urbanizzazione non influisce sulle credenze religiose generali. Si noti, tuttavia, che anche la spesa sociale non spiega l'Irlanda o le Filippine, dimostrando che alcuni altri effetti sono comparativamente più forti di quelli della spesa sociale .

Fare affidamento su "fermare le regole" può portare a falsi positivi, specialmente nelle piccole dimensioni della psicologia. La psicologia come campo è davvero trattenuta da questo tipo di shenanigans statistici. Tuttavia, riporre tutta la nostra fede su un valore p arbitrario è anche piuttosto stupido. Anche se tutti avessimo inviato le dimensioni dei nostri campioni e le nostre dichiarazioni di ipotesi a un diario prima di condurre l'esperimento, avremmo comunque incontrato falsi positivi poiché il mondo accademico trollava collettivamente per significatività statistica.

La cosa giusta da fare non è fermare il data mining, la cosa giusta da fare è descrivere i risultati in relazione al loro effetto . Le teorie sono giudicate non solo dall'accuratezza delle loro previsioni, ma anche dall'utilità di tali previsioni. Non importa quanto sia buona la metodologia di ricerca, un farmaco che fornisce un miglioramento dell'1% nei sintomi del raffreddore non vale il costo di confezionare in una capsula.

Aggiornamento Per essere chiari, concordo pienamente sul fatto che gli scienziati sociali dovrebbero essere tenuti a uno standard più elevato: dobbiamo migliorare l'istruzione, fornire agli scienziati sociali strumenti migliori e aumentare i livelli di significatività a 3-sigma. Sto cercando di enfatizzare un punto sottorappresentato: la stragrande maggioranza degli studi di psicologia sono inutili perché la dimensione dell'effetto è così piccola.

Ma con Amazon Turk, posso compensare adeguatamente l'esecuzione di 10 studi paralleli e mantenere un livello di confidenza> 3 sigma molto economico. Ma se la forza dell'effetto è piccola, allora ci sono minacce significative alla validità esterna. L'effetto della manipolazione potrebbe essere dovuto a una notizia, all'ordinamento delle domande o ...

Non ho tempo per un saggio, ma i problemi di qualità all'interno delle scienze sociali vanno ben oltre i metodi statistici scadenti.


Capisco che ci sia un po 'di conflazione tra studi sociologici (di solito non sperimentali) e studi clinici qui. Tuttavia, la tua prima frase non ha senso: fermare le regole è una vasta area di ricerca negli studi clinici. La logica di ciò è che ipotesi multiple e correlate testate sequenzialmente fanno parte di un piano di analisi prespecificato . Il collegamento nella questione dei PO, tuttavia, non è un problema di cattiva matematica, ma di cattiva scienza. Condurre più test statistici per "sentire" la giusta analisi e fermarsi quando si trova un significato è una cattiva scienza, non importa come la si taglia.
AdamO,

@AdamO Sono d'accordo! Quando ho scritto questo, ero un studente universitario che cercava di utilizzare metodi di data mining e quando sono andato per assicurarmi di fare tutto correttamente (che ero) le reazioni iniziali che ho avuto da professori e statistici erano ... ingenui. Ironia della sorte, la procedura operativa standard per i laboratori di scienze sociali è quella di condurre studi pilota fino a quando non trovano qualcosa di interessante. Stavo facendo la stessa cosa, ma in realtà cercavo di compensare: p
Indolering

0

L'articolo che citi non fa menzione di come fermare le regole e sembra avere poca importanza per il problema in questione. La loro unica, leggerissima relazione è quella dei test multipli che è un concetto statistico , non scientifico.

Nella letteratura delle sperimentazioni cliniche, scoprirai che le regole di interruzione sono rese rigorose con informazioni esplicite sulle condizioni in cui uno studio "guarderà": basato sull'anno solare o sull'iscrizione degli anni-persona, l'impostazione di un livello alfa e inoltre si limita agli effetti per trattamenti "efficaci" rispetto a "dannosi". In effetti, dovremmo considerare la condotta rigorosa di tali studi come un esempio di scienza fatta bene . La FDA si spingerà fino al punto di dire, a seguito di un risultato significativo di efficacia diverso da quello specificato, è necessario condurre un secondo studio per convalidare questi risultati. Questo rimane un problema così tanto che Thomas Flemming raccomanda che tutti gli studi clinici debbano farloconvalidato con un secondo processo di conferma completamente indipendente , condotto da entità separate. Così grave è il problema degli errori falsi positivi quando si considera la vita e l'assistenza medica.

Con una supervisione apparentemente innocua, altri campi della scienza hanno perpetuato una cattiva etica nella ricerca. In effetti, le scienze sociali non influenzano i trattamenti che le persone ricevono, si occupano di abstract e modelli concettuali che migliorano solo la nostra comprensione dell'interazione tra teoria e osservazione. Tuttavia, ogni consumatore di scienze sociali, laiche o scientifiche, viene spesso presentato con risultati contrastanti: il cioccolato fa bene a te, il cioccolato fa male a te (il cioccolato fa bene a te, tra l'altro, lo zucchero e il grassonel cioccolato fa male), il sesso fa bene, il matrimonio ti rende triste / il matrimonio ti rende felice. Il campo è negligente con la cattiva scienza. Anche io sono colpevole di lavorare su analisi in cui non ero soddisfatto del linguaggio fortemente causale che era quindi legato a forti raccomandazioni sulla politica e sul sostegno federale, totalmente ingiustificato e tuttavia è stato pubblicato.

L'articolo di Simmons descrive in modo efficace come la divulgazione aiuterebbe a rendere espliciti i tipi di "scorciatoie" che i ricercatori fanno negli studi sociali. Simmons fornisce nella Tabella 1 un esempio di come il dragaggio dei dati aumenti drasticamente i tassi di errore di falsi positivi in ​​un modo tipico dello scienziato immorale "alla ricerca di risultati". Il riassunto dei risultati nella Tabella 2 descrive gli aspetti frequentemente omessi degli articoli che servirebbero a migliorare notevolmente la comprensione di come probabilmente più di un'analisi è stata condotta.

Riassumendo, fermare le regole sarebbe appropriato solo con un'ipotesi predeterminata: sono eticamente solidi e richiedono metodi statistici. L'articolo di Simmons ammette che gran parte della ricerca non lo concede nemmeno, ed è eticamente non corretta, ma il linguaggio statistico è convincente per il motivo per cui esattamente è sbagliato.


Non capisco perché diresti che il documento citato ha poco a che fare con il problema in questione. Contiene una sezione intitolata "Uno sguardo più da vicino alla flessibilità delle dimensioni del campione" che tratta dell'arresto opzionale. Dai un'altra occhiata.
Michael Lew - ripristina Monica il

@MichaelLew per riassumere la risposta: l'interruzione delle regole ha a che fare con studi clinici, reclutamento e follow-up ma testando una singola ipotesi prespecificata, questa è una pratica accettabile nella ricerca di dispositivi FDA e agenti terapeutici. L'articolo di Simmons affronta l'etica, i criteri e il p-hacking della ricerca nella ricerca in medicina sociale e accademici. Puoi descrivere più precisamente come vedi la relazione? Forse puoi modificare il tuo post per definire i termini e fornire riferimenti ad altra letteratura, in particolare per quanto riguarda le "regole di interruzione" che AFAIK non esistono al di fuori degli studi clinici.
AdamO,

Inoltre, non penso che la tua caratterizzazione "altri campi della scienza abbiano perpetuato una cattiva etica nella ricerca" sia giusta o utile. Il punto della mia domanda iniziale è che non sembra esserci alcun motivo per cui gli utenti delle statistiche part-time siano persino a conoscenza dei potenziali problemi derivanti da analisi intermedie non dichiarate. Non è giusto chiamare l'ignoranza non etica.
Michael Lew - ripristina Monica il

@MichaelLew cosa stai definendo una "analisi intermedia"?
AdamO,

Adam, non credo che tu abbia ragione nel dire che "non esistono regole di arresto al di fuori degli studi clinici". Spesso non possono essere menzionati al di fuori degli studi clinici (vedi la mia domanda originale), ma esistono per ogni esperimento. Anche una prova a dimensione fissa del campione ha la regola di arresto "continua fino a quando non viene raggiunta la dimensione del campione".
Michael Lew - ripristina Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.