Come giustificare rigorosamente i tassi di errore falsi positivi / falsi negativi scelti e il rapporto di costo sottostante?

Contesto

Un gruppo di scienziati e statistici sociali ( Benjamin et al., 2017 ) ha recentemente suggerito che il tipico tasso di falsi positivi ( = .05) usato come soglia per determinare "significatività statistica" deve essere adeguato a una soglia più conservativa ( = .005). Un gruppo in competizione di scienziati sociali e statistici ( Lakens et al., 2018 ) ha risposto, discutendo contro l'uso di questa o di qualsiasi altra soglia arbitrariamente selezionata. Quella che segue è una citazione di Lakens et al. (p. 16) che aiuta a esemplificare l'oggetto della mia domanda: $\alpha$ $\alpha$

Idealmente, il livello alfa viene determinato confrontando costi e benefici con una funzione di utilità usando la teoria delle decisioni. Questa analisi costi-benefici (e quindi il livello alfa) differisce quando si analizzano grandi set di dati esistenti rispetto alla raccolta di dati da campioni difficili da ottenere. La scienza è varia e spetta agli scienziati giustificare il livello alfa che decidono di utilizzare. ... La ricerca dovrebbe essere guidata da principi di scienza rigorosa, non da euristica e soglie arbitrarie.

Domanda

Mi chiedo come si possa fare per giustificare l'alfa scelta in un modo "guidato da principi di scienza rigorosa", come Lakens et al. suggerire, nella maggior parte dei contesti di scienze sociali (cioè, al di fuori di casi selezionati in cui si ha una qualità più concreta, come il profitto, da ottimizzare)?

Dopo la diffusione di Lakens et al., Ho iniziato a vedere circolatori online per aiutare i ricercatori a prendere questa decisione. Quando li utilizzano, i ricercatori devono specificare un "rapporto di costo" di errori falsi positivi e falsi negativi. Tuttavia, come questa calcolatrice qui suggerisce, la determinazione di tale rapporto costi una può coinvolgere un sacco di indovinare-lavoro quantitativo:

Mentre alcuni costi di errore sono facili da quantificare in termini monetari (costi diretti), altri sono difficili da stabilire un importo dolar (costi indiretti). ... Nonostante sia difficile da quantificare, dovresti fare uno sforzo per mettergli un numero.

Ad esempio, sebbene Lakens et al. suggerisce di studiare campioni difficili da raggiungere come un fattore che si potrebbe prendere in considerazione per giustificare l'alfa, sembra che si sia ancora lasciato indovinare quanto sia difficile raggiungere quel campione e, quindi, come regolare di conseguenza la selezione dell'alfa. Come altro esempio, mi sembrerebbe difficile quantificare il costo della pubblicazione di un falso positivo, in termini di quanto tempo / denaro gli altri si impegnerebbero successivamente a perseguire la ricerca fondata sull'inferenza errata.

Se determinare questo rapporto di costo è in gran parte una questione di ipotesi soggettive, mi chiedo se queste decisioni possano mai (di nuovo, al di fuori dell'ottimizzazione di qualcosa come il profitto) essere "giustificate". Cioè, in un modo che esiste al di fuori delle ipotesi fatte su campionamento, compromessi, impatto, ecc.? In questo modo, determinare un rapporto di costo di errori falsi positivi / falsi negativi mi sembra qualcosa di simile alla selezione di un precedente nell'inferenza bayesiana - una decisione che può essere in qualche modo soggettiva, influenzare i risultati e quindi dibattuta- -sebbene non sia sicuro che sia un confronto ragionevole.

Sommario

Per rendere concreta la mia richiesta:

I tassi di falsi positivi / falsi negativi e i loro rapporti di costo possono mai essere "rigorosamente" giustificati nella maggior parte dei contesti di scienze sociali?
In tal caso, quali sono i principi generalizzabili che uno potrebbe seguire per giustificare queste scelte analitiche (e forse un esempio o due di esse in azione)
In caso contrario, la mia analogia con la soggettività potenziale nella scelta dei rapporti di costo - come affine alla precedente selezione bayesiana - è ragionevole?

Riferimenti

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22 luglio). Ridefinire il significato statistico. Estratto da psyarxiv.com/mky9j

Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, 15 gennaio). Giustifica la tua alfa. Estratto da psyarxiv.com/9s3y6

— jsakaluk
fonte

Puoi definire come stai usando "obiettivamente giustificato?" Le probabilità di errore di tipo I sono una preferenza del ricercatore ... così come le probabilità di errore di tipo II a priori . In che modo un ricercatore "giustificherebbe obiettivamente", ad esempio, un programma di ricerca preferito, un collaboratore o un finanziatore di ricerca preferito o un approccio di formazione e mentoring per gli assistenti di ricerca preferiti?

— Alexis,

Giustificato oggettivamente come in più di una semplice preferenza. The Lakens et al., Il documento sta attualmente circolando sotto il titolo "JYA" [Justify Your Alpha], e la mia lettura del loro argomento, basato sulle citazioni di cui sopra, è che nessuna vecchia preferenza lo farà. Per essere chiari: non sto necessariamente presentando l'argomento secondo cui si può obiettivamente giustificare un tasso di errore di tipo I / II scelto. Piuttosto, la mia indagine si basa sull'interpretazione di Lakens et al. suggerire che puoi, e se è così, allora non capisco come si farebbe.

— jsakaluk,

Non vedo la parola "oggettivamente" in questa citazione di Lakens et al. Lo usano davvero nella loro carta? In tal caso, potresti aggiungere un'altra citazione per fornire un contesto più specifico? Altrimenti, non sono sicuro che si possano dire cose come "giustificare obiettivamente l'alfa scelta, come suggeriscono Lakens et al.".

— ameba dice di reintegrare Monica il

Ho aggiornato il post, che ora è privo di "obiettività". Non era mia intenzione caratterizzare erroneamente l'argomento, ma posso capire se i lettori pensavano di aver scritto con noncuranza. Lakens et al. non utilizzare il descrittore di "guidata da principi di rigore scientifico", quindi la mia domanda è ora più sicuro piede. Sono ancora rimasto a chiedermi, tuttavia, cosa può significare; in che modo le congetture sembrano apparentemente più rigorose di un'euristica? Se fa la differenza, sono particolarmente curioso di sapere come un realista scientifico raggiungerebbe uno standard di giustificazione "scientificamente rigorosa" per l'alfa.

— jsakaluk,

α

$\alpha$

Risposte:

(pubblicato anche su Twitter, ma ripubblicato qui) Il mio tentativo di risposta: non credo che una giustificazione possa essere "puramente" oggettiva, ma può essere basata su criteri difendibili da motivi razionali / empirici. Penso che l'RSS sia un esempio di un modo in cui potresti giustificare p <.005 per alcuni tipi di ricerca, ma penso anche che ci siano altre circostanze in cui una diversa alfa sarebbe più ottimale di <.005 (superiore o inferiore) a seconda di cos'è l'alfa fattibile e quale è lo scopo dello studio. Quindi, ad esempio, se hai 5.000 partecipanti e la dimensione dell'effetto più bassa di interesse è .10, potresti voler usare p <.001 e avere il 90% di potenza (i numeri sono tutti composti) Al contrario, supponi di eseguire un piccolo esperimento come "prova del concetto" iniziale per la linea di ricerca. Potresti avere N = 100, p <.10, 90% di potenza,

— Mark Hoffarth
fonte

Ho pensato molto alla stessa domanda ultimamente, e immagino che lo siano anche molti altri in psicologia.

Prima di tutto, ciascuna delle tue domande riguarda se una scelta viene fatta in modo oggettivo rispetto a quello soggettivo, ma (come altri hanno notato qui) non hai spiegato completamente cosa costituirebbe (a tuo avviso) una scelta oggettiva rispetto a soggettiva.

Potresti essere interessato al documento Gelman & Hennig 2015 che disimballa una varietà di valori racchiusi nell'uso comune delle etichette "oggettive" e "soggettive" nella scienza. Nella loro formulazione, "oggettivo" si riferisce a valori di trasparenza, consenso, imparzialità e corrispondenza con la realtà osservabile, mentre "soggettivo" si riferisce a valori di molteplici prospettive e dipendenza dal contesto.

Relativamente alla tua domanda 3, nella visione bayesiana, la probabilità è definita come quantificare l'incertezza sul mondo. Da quello che ho capito, c'è una tensione evidente tra le scuole "soggettiviste bayesiane" (le probabilità riflettono i singoli stati di credenza) e le scuole "oggettiviste bayesiane" (le probabilità riflettono la plausibilità del consenso). All'interno della scuola oggettivista, c'è una maggiore enfasi sulla giustificazione della distribuzione precedente (e del modello più in generale) in un modo trasparente che comporti il consenso e che possa essere verificato, ma la scelta del modello è certamente dipendente dal contesto (cioè , dipende dallo stato di conoscenza del consenso per un problema specifico).

Nella concezione del frequentista, le probabilità riflettono il numero di volte in cui un evento si verificherà a causa di infinite repliche indipendenti. Nel quadro di Neyman-Pearson, si stabilisce una precisa alternativa alternativa e un preciso alfa, si accetta l'esatto nullo o l'alternativa precisa (che l'effetto della popolazione è esattamente uguale a quello stipulato) sulla base dei dati, e quindi si riporta il frequenza a lungo termine di farlo per errore.

In questo quadro, raramente abbiamo una stima puntuale precisa della dimensione dell'effetto della popolazione, ma piuttosto un intervallo di valori plausibili. Pertanto, in base a una data alfa, non abbiamo una stima precisa del tasso di errore di tipo 2, ma piuttosto un intervallo di tassi di errore plausibili di tipo 2. Allo stesso modo, concordo con il tuo punto generale sul fatto che in genere non abbiamo un'idea precisa di quali saranno effettivamente i costi e i vantaggi di un errore di tipo 1 o di un errore di tipo 2. Ciò significa che spesso ci troviamo di fronte a una situazione in cui abbiamo in primo luogo informazioni molto incomplete su quale dovrebbe essere la nostra ipotesi, e ancora meno informazioni su quali sarebbero i relativi costi e benefici dell'accettazione rispetto al rifiuto di questa ipotesi.

alle tue domande:

I tassi di falsi positivi / falsi negativi e i loro rapporti di costo possono mai essere oggettivamente giustificati nella maggior parte dei contesti di scienze sociali?

Penso di sì, in quanto una giustificazione può essere trasparente, può comportarsi con consenso, può essere imparziale e può corrispondere alla realtà (nella misura in cui stiamo utilizzando le migliori informazioni disponibili su costi e benefici).

Tuttavia, penso che tali giustificazioni siano anche soggettive, in quanto possono esserci più prospettive valide su come impostare l'alfa per un dato problema, e in quanto ciò che costituisce un'alfa appropriata può essere significativamente dipendente dal contesto.

Ad esempio, negli ultimi anni, è diventato chiaro che molti effetti in letteratura riflettono errori di tipo M o di tipo S. Possono anche riflettere errori di tipo 1, nella misura in cui uno studio di replica è in grado di fornire prove del valore nullo dell'effetto esattamente zero.

In relazione a questa osservazione, c'è un consenso emergente sul fatto che la soglia del valore p per un reclamo con certezza dovrebbe essere mantenuta la stessa o resa più rigorosa (cioè, nessuno sta sostenendo un aumento generalizzato dell'alfa a .10 o .20) . Allo stesso modo, c'è un consenso emergente sul fatto che i valori di p non dovrebbero essere usati come criterio per la pubblicazione (ad esempio, il formato del rapporto registrato).

Per me, ciò riflette una sorta di fonte "obiettiva" di informazioni - vale a dire, secondo la mia lettura, vi è un crescente consenso sul fatto che false dichiarazioni siano costose sul campo (anche se non possiamo mettere un importo in dollari su questi costi). Secondo la mia lettura, non vi è alcun chiaro consenso sul fatto che il mancato rispetto di una soglia del valore p sia un costo drammatico per il settore. Se ci sono costi, possono essere mitigati se il mancato rispetto di una soglia del valore p non influisce sul fatto che la stima sia inserita in un documento pubblicato.

In tal caso, quali sono i principi generalizzabili che uno potrebbe seguire per giustificare queste scelte analitiche (e forse un esempio o due di esse in azione)

Non sono sicuro, ma mi spingerei verso una sorta di principio secondo cui le decisioni dovrebbero essere prese sulla base di giudizi di consenso trasparenti (locali o globali) sui costi e sui benefici di diversi tipi di scelte analitiche in un particolare contesto, anche in il volto di informazioni terribilmente incomplete su quali potrebbero essere questi costi e benefici.

In caso contrario, la mia analogia con la soggettività potenziale nella scelta dei rapporti di costo - come affine alla precedente selezione bayesiana - è ragionevole?

Sì, attraverso le tradizioni frequentiste e bayesiane, c'è spazio per la soggettività (cioè, molteplici prospettive e dipendenza dal contesto) così come l'obiettività (cioè trasparenza, consenso, imparzialità e corrispondenza con la realtà osservabile) in molti aspetti diversi di un modello statistico e come viene utilizzato quel modello (il precedente scelto, la probabilità scelta, la soglia di decisione scelta, ecc.).

— lievito
fonte

Questa è una bella risposta Un pezzo di cui non sono così sicuro è l'affermazione della corrispondenza. Se capiamo questo termine allo stesso modo (sto pensando in termini di teoria della verità della corrispondenza), allora in realtà sembra che la corrispondenza potrebbe essere su un terreno instabile se non abbiamo un'idea precisa dei costi di Tipo Errori I / II. Invece, sembra che ci sia una migliore pretesa di coerenza (dati questi presupposti iniziali, il resto dei numeri "ha senso") o pragmatismo (la nostra ipotesi sui costi dell'errore di tipo I / II è una finzione utile per la pianificazione dello studio).

— jsakaluk,

Forse sto provando troppo a sposare la "giustificazione" con una prospettiva corrispondenza / realista, e in questi altri modi di comprendere, i tassi di errore di tipo I / II possono essere scelti in un modo "giustificato"?

— jsakaluk,

Grazie per avermi indicato queste idee. Direi che in ogni dato contesto, potremmo avere buone informazioni su quali saranno probabilmente i costi e i benefici futuri, oppure potremmo avere informazioni molto scarse. In un senso molto approssimativo, vi è un crescente consenso sul fatto che i falsi positivi (p <soglia, il vero effetto è esattamente zero) possono essere più dannosi per il campo rispetto ai casi in cui non si riesce a raggiungere una soglia di significatività (ma pubblicando comunque la stima). In circostanze locali specifiche, potrebbero esserci costi più gravi associati al mancato rispetto di una soglia di rilevanza.

— pasta

Tangenzialmente, i concetti di "alfa" e "errore di tipo 2" esistono solo nel quadro NP in cui l'analista ha specificato due ipotesi precise e si impegna ad accettare l'una o l'altra alla fine della procedura. Tuttavia, nella pratica comune, gli analisti sono spesso avvertiti di non accettare il nulla sulla base di una stima non significativa con un potere incerto, ritornando essenzialmente a un'interpretazione in stile Fisher in cui non è possibile accettare il nulla e nessun "errore di tipo 2".

— pasta

È divertente per me che i social network, la classe sociale e le interazioni sociali dietro la tua descrizione del "consenso" siano in qualche modo separati dalle credenze soggettive e dai valori che sono alla base di tutti.

— Alexis,