Qual è un buon esempio convincente in cui i valori p sono utili?


64

La mia domanda nel titolo è autoesplicativa, ma vorrei dare un po 'di contesto.

L'ASA ha rilasciato una dichiarazione all'inizio di questa settimana " sui valori di p: contesto, processo e scopo ", delineando varie idee sbagliate comuni sul valore di p e sollecitando cautela nel non usarlo senza contesto e pensiero (che si potrebbe dire proprio di qualsiasi metodo statistico, davvero).

In risposta all'ASA, il professor Matloff ha scritto un post sul blog dal titolo: Dopo 150 anni, l'ASA dice No ai valori p . Quindi il professor Benjamini (e io) abbiamo scritto un post di risposta intitolato Non è colpa dei valori p - riflessioni sulla recente dichiarazione ASA . In risposta ad esso il professor Matloff ha chiesto in un post di follow-up :

Quello che mi piacerebbe vedere [... è] - un buon esempio convincente in cui i valori p sono utili. Questa deve essere davvero la linea di fondo.

Per citare i suoi due argomenti principali contro l'utilità del valore :p

  1. Con campioni di grandi dimensioni, i test di significatività saltano su partenze minime e non importanti dall'ipotesi nulla.

  2. Quasi nessuna ipotesi nulla è vera nel mondo reale, quindi eseguire un test di significatività su di essi è assurdo e bizzarro.

Sono molto interessato a ciò che gli altri membri della comunità valutati in modo incrociato pensano di questa domanda / argomentazioni e di ciò che può costituire una buona risposta ad essa.


5
Tim

2
Grazie Tim. Sospetto che la mia domanda sia abbastanza diversa da meritare il proprio thread (soprattutto perché non ha ricevuto risposta nei due che hai citato). Tuttavia, i collegamenti sono molto interessanti!
Tal Galili,

3
Merita ed è interessante (da qui il mio +1), ho fornito i link solo FYI :)
Tim

3
Devo dire che non ho (ancora) letto ciò che Matloff ha scritto sull'argomento, ma tuttavia, per far sì che la tua domanda sia autonoma, puoi forse riassumere brevemente perché trova un esempio standard di utilizzo di valori p non " buono / convincente "? Ad esempio qualcuno vuole studiare se una certa manipolazione sperimentale cambia il comportamento degli animali in una direzione particolare; così un gruppo sperimentale e uno di controllo vengono misurati e confrontati. Come lettore di un simile documento, sono felice di vedere il valore p (cioè sono utili per me), perché se è grande non ho bisogno di prestare attenzione. Questo esempio non è abbastanza?
ameba dice Ripristina Monica l'

1
@amoeba - li elenca qui: matloff.wordpress.com/2016/03/07/… ----- Citando le sue argomentazioni: 1) con grandi campioni, i test di significatività saltano su minuscole, irrilevanti deviazioni dall'ipotesi nulla. 2) Quasi nessuna ipotesi nulla è vera nel mondo reale, quindi eseguire un test di significatività su di essi è assurdo e bizzarro. ----- Ho la mia opinione su questi (che vorrei formalizzare in seguito), ma sono sicuro che altri avranno modi penetranti per rispondere a questo.
Tal Galili,

Risposte:


44

Prenderò in considerazione entrambi i punti di Matloff:

  1. Con campioni di grandi dimensioni, i test di significatività saltano su partenze minime e non importanti dall'ipotesi nulla.

    La logica qui è che se qualcuno riporta altamente significativo , da questo solo numero non possiamo dire se l'effetto è grande e importante o irrilevantemente piccolo (come può accadere con grande ). Trovo questo argomento strano e non riesco a collegarmi affatto, perché non ho mai visto uno studio che riportasse un valore senza riportare [qualche equivalente di] dimensione dell'effetto. Gli studi che ho letto, ad esempio, direbbero (e di solito mostrano una figura) che il gruppo A aveva tale e tale media, il gruppo B aveva tale e tale media ed erano significativamente differenti con tale e tale valore . Ovviamente posso giudicare da solo se la differenza tra A e B è grande o piccola.np=0.0001nppp

    (Nei commenti, @RobinEkman mi ha fatto riferimento a numerosi studi citati da Ziliak e McCloskey ( 1996 , 2004 ) che hanno osservato che la maggior parte dei giornali di economia tromba "significatività statistica" di alcuni effetti senza prestare molta attenzione alla dimensione dell'effetto e il suo "significato pratico" (che, sostiene Z&MS, può spesso essere minuscolo). Questa è chiaramente una cattiva pratica. Tuttavia, come spiegato di seguito da @MatteoS, le dimensioni dell'effetto (stime di regressione) sono sempre riportate, quindi la mia argomentazione è valida).

  2. Quasi nessuna ipotesi nulla è vera nel mondo reale, quindi eseguire un test di significatività su di essi è assurdo e bizzarro.

    Anche questa preoccupazione viene spesso espressa, ma qui non riesco davvero a collegarmi ad essa. E 'importante rendersi conto che i ricercatori non aumentano il loro all'infinito . Nel ramo della neuroscienza che conosco, le persone faranno esperimenti con o forse , diciamo, ratti. Se non si vede alcun effetto, la conclusione è che l'effetto non è abbastanza grande da essere interessante. Nessuno So che avrebbe continuato l'allevamento, la formazione, la registrazione, e sacrificando ratti per dimostrare che non v'è un certo effetto statisticamente significativo ma minuscola. E mentre potrebbe essere vero che quasi nessun effetto reale è esattamente zero, lo èn = 20 n = 50 n = 5000n n=20n=50n=5000 certamente vero che molti molti effetti reali sono abbastanza piccoli da essere rilevati con dimensioni del campione ragionevoli che i ricercatori ragionevoli stanno effettivamente usando, esercitando il loro buon senso.

    (Esiste una valida preoccupazione che le dimensioni del campione spesso non siano sufficientemente grandi e che molti studi siano scarsi. Quindi, forse i ricercatori in molti campi dovrebbero piuttosto mirare, per esempio, a anziché a Comunque, qualunque sia la dimensione del campione , pone un limite alla dimensione dell'effetto che lo studio ha il potere di rilevare.)n = 20n=100n=20

    Inoltre, non credo di essere d'accordo sul fatto che quasi nessuna ipotesi nulla sia vera, almeno non negli studi sperimentali randomizzati (al contrario di quelli osservativi). Due motivi:

    • Molto spesso esiste una direzionalità della previsione che viene testata; il ricercatore mira a dimostrare che alcuni effetti sono positivi . Per convenzione, questo di solito viene eseguito con un test a due facce assumendo un punto null ma in realtà si tratta piuttosto di un test a una faccia che tenta di rifiutare . (La risposta di @ CliffAB, +1, fa un punto correlato.) E questo può certamente essere vero.H 0 : δ = 0 H 0 : δ < 0δ>0H0:δ=0H0:δ<0

    • Anche parlando del punto "zero" null , non vedo perché non siano mai vere. Alcune cose non sono semplicemente causalmente correlate ad altre cose. Guarda gli studi psicologici che non si sono replicati negli ultimi anni: le persone sentono il futuro; donne vestite di rosso durante l'ovulazione; innesco con parole legate alla vecchiaia che incidono sulla velocità della camminata; ecc. Potrebbe benissimo essere che non ci siano collegamenti causali qui e quindi i veri effetti sono esattamente zero.H0:δ=0

Se stesso, Norm Matloff suggerisce di usare intervalli di confidenza invece di valori perché mostrano la dimensione dell'effetto. Gli intervalli di confidenza sono buoni, ma si nota uno svantaggio di un intervallo di confidenza rispetto al valore : l'intervallo di confidenza è riportato per un particolare valore di copertura, ad es. . Vedere un intervallo di confidenza al non mi dice quanto ampio sarebbe un intervallo di confidenza al . Ma un singolo valore può essere confrontato con qualsiasi e diversi lettori possono avere in mente diversi alfa.p 95 % 95 % 99 % p αpp95%95%99%pα

In altre parole, penso che per qualcuno a cui piace usare gli intervalli di confidenza, un valore sia una statistica aggiuntiva utile e significativa da segnalare.p


Vorrei fare una lunga citazione sull'utilità pratica dei valori dal mio blogger preferito Scott Alexander; non è uno statistico (è uno psichiatra) ma ha molta esperienza nella lettura di pubblicazioni psicologiche / mediche e nel controllo delle statistiche ivi contenute. La citazione è tratta dal suo post sul blog sullo studio del finto cioccolato che consiglio vivamente. Enfasi mia.p

[...] Supponiamo che non ci sia permesso fare valori . Tutto quello che faccio è dirti "Sì, c'è stato uno studio con quindici persone che hanno scoperto che il cioccolato ha aiutato con l'insulino-resistenza" e tu mi hai riso in faccia. La dimensione dell'effetto dovrebbe aiutare in questo. Ma supponiamo che io ti dica "C'è stato uno studio con quindici persone che hanno scoperto che il cioccolato ha aiutato con l'insulino-resistenza. La dimensione dell'effetto era ". Non ho alcuna intuizione per stabilire se sia coerente con il rumore casuale. Fai? Bene, allora dicono che dovremmo segnalare intervalli di confidenza. La dimensione dell'effetto era , con intervallo di confidenza del dip0.60.695%[0.2,1.0]. Va bene. Quindi controllo il limite inferiore dell'intervallo di confidenza, vedo che è diverso da zero. Ma ora non sto trascendendo il valore . Sto solo usando il valore p facendo una sorta di calcolo kludgy da solo - "L' intervallo di confidenza al non include zero" è lo stesso di "il valore è inferiore a ".p95%p0.05

(Immagina che, sebbene io sappia che l' intervallo di confidenza al non include zero, comincio a chiedermi se l' intervallo di confidenza al fa. Se solo ci fosse qualche statistica che mi darebbe queste informazioni!)95%99%

Ma liberarsi dei valori non impedirebbe il " -hacking"? Forse, ma darebbe solo il via al "d-hacking". Non pensi di poter testare venti diversi parametri metabolici e riportare solo quello con la massima dimensione dell'effetto? L'unica differenza sarebbe che il p-hacking è completamente trasparente - se fai venti test e segnali una di , so che sei un idiota - ma il d-hacking sarebbe imperscrutabile. Se fai venti test e riferisci che uno di loro ha ottenuto un , è impressionante? [...]ppp0.05d=0.6

Ma il passaggio dai valori- alle dimensioni degli effetti non impedirebbe alle persone di fare un grosso problema con piccoli effetti che sono statisticamente significativi? Sì, ma a volte vogliamo fare molto per piccoli effetti che sono statisticamente significativi! Supponiamo che la Coca-Cola stia testando un nuovo additivo per prodotti e che, in ampi studi epidemiologici, abbia scoperto che provoca un decesso in più ogni centomila persone all'anno. Questa è una dimensione dell'effetto di circa zero, ma potrebbe essere statisticamente significativa. E poiché circa un miliardo di persone in tutto il mondo bevono Coca-Cola ogni anno, si tratta di diecimila morti. Se Coca Cola dicesse "No, la dimensione dell'effetto è troppo piccola, non vale la pena pensarci", ucciderebbero quasi due milioni di persone.p


Per qualche ulteriore discussione su varie alternative ai valori (compresi quelli bayesiani), vedere la mia risposta in ASA discute le limitazioni dei valori - quali sono le alternative?pp


1
A mio avviso, la tua risposta al secondo argomento non è pertinente. Nessuno suggerisce che i veri ricercatori aumentino le loro dimensioni del campione all'infinito. Il punto (come lo vedo io) è che qualsiasi ipotesi nulla della forma "effect = 0" che un ricercatore sarebbe interessato a test sarà falsa, e c'è poco valore nell'eseguire un test di ipotesi se l'ipotesi nulla è già noto per essere falso. Questo ovviamente presuppone che ciò a cui siamo veramente interessati siano i parametri rilevanti della popolazione, piuttosto che le caratteristiche del campione.
mark999,

1
Ma ammetto che "qualsiasi ipotesi nulla ... sarà falsa" è solo un'ipotesi.
mark999,

1
Devo ammettere che il mio ragionamento qui era piuttosto informale e non ho mai provato a formalizzarlo. Forse per far funzionare questo argomento, non dovrei dire che esiste un chiaro confine tra dimensioni di effetti interessanti e non interessanti. Piuttosto è un continuum con l'interesse crescente che si allontana da zero, e la dimensione "ragionevole" del campione dovrebbe dare poca potenza alle dimensioni degli effetti molto poco interessanti e grande potenza a quelle molto interessanti, ma non esiste una soglia. Mi chiedo se si possa formalizzare accuratamente lungo le linee Neyman-Pearson.
ameba dice Ripristina Monica l'

6
Forse si "avete mai visto uno studio che avrebbe riferito un -valore senza riferire [qualche equivalente di] effect size", ma Ziliak e McCloskey trovato circa 300 tali articoli pubblicati in un solo giornale, The American Economic Review, durante appena due decenni . Tali documenti costituivano oltre il 70% di tutti i documenti esaminati. p
Robin Ekman,

3
@amoeba: la fonte dell'affermazione del 70% potrebbe essere la frase ambigua nell'abstract del 2006: "dei 182 articoli a tutta lunghezza pubblicati negli anni '80 nel [AER] il 70% non distingueva il significato economico da quello statistico". Ciò che intendono con questo - come spiegato in entrambi gli articoli - è che spesso viene commentato solo quest'ultimo, e che l'entità del coefficiente di regressione in relazione alla variabile dipendente ("significato economico" nel loro gergo) non è analizzata in modo estensivo . Ma è sempre segnalato. Ti suggerisco di modificare l'aggiornamento nella risposta per riflettere che :-)
MatteoS

29

Mi offendo molto per le seguenti due idee:

  1. Con campioni di grandi dimensioni, i test di significatività saltano su partenze minime e non importanti dall'ipotesi nulla.

  2. Quasi nessuna ipotesi nulla è vera nel mondo reale, quindi eseguire un test di significatività su di essi è assurdo e bizzarro.

È un argomento così folle sui valori di p. Il problema fondamentale che ha motivato lo sviluppo delle statistiche deriva dal vedere una tendenza e dal voler sapere se ciò che vediamo è per caso o rappresentativo di una tendenza sistematica.

Con questo in mente, è vero che noi, come statistici, in genere non crediamo che un'ipotesi nulla sia vera (cioè , dove è la differenza media in alcune misurazioni tra due gruppi). Tuttavia, con i test su due lati, non sappiamo quale ipotesi alternativa sia vera! In un test su due lati, potremmo essere disposti a dire che siamo sicuri al 100% che prima di vedere i dati. Ma non sappiamo se o . Quindi se eseguiamo il nostro esperimento e concludiamo che , abbiamo rifiutato (come potrebbe dire Matloff; conclusione inutile) ma, cosa più importante, abbiamo anche rifiutatoHo:μd=0μdμd0μd>0μd<0μd>0μd=0μd<0 (dico; conclusione utile). Come ha sottolineato @amoeba, questo vale anche per i test a un lato che hanno il potenziale per essere a due lati, come testare se un farmaco ha un effetto positivo.

È vero che questo non ti dice l'entità dell'effetto. Ma ti dice la direzione dell'effetto. Quindi non mettiamo il carrello davanti al cavallo; prima di iniziare a trarre conclusioni sull'entità dell'effetto, voglio essere sicuro di avere la direzione dell'effetto corretta!

Allo stesso modo, l'argomento secondo cui "i valori di p precipitano su effetti minuscoli e non importanti" mi sembra del tutto errato. Se pensi a un valore p come una misura di quanto i dati supportano la direzione della tua conclusione, allora ovviamente vuoi che raccolga piccoli effetti quando la dimensione del campione è abbastanza grande. Dire questo significa che non sono utili è molto strano per me: questi campi di ricerca che hanno sofferto di valori p sono gli stessi che hanno così tanti dati che non hanno bisogno di valutare l'affidabilità delle loro stime? Allo stesso modo, se il tuo problema è che i valori p "saltano su dimensioni di effetto minuscole", puoi semplicemente testare le ipotesi eH 2 : μ d < - 1H1:μd>1H2:μd<1(supponendo che tu creda che 1 sia la dimensione minima dell'effetto importante). Questo viene fatto spesso negli studi clinici.

Per illustrare ulteriormente questo, supponiamo di aver appena esaminato gli intervalli di confidenza e scartato i valori p. Qual è la prima cosa da verificare nell'intervallo di confidenza? Se l'effetto è stato strettamente positivo (o negativo) prima di prendere i risultati troppo sul serio. Come tale, anche senza valori p, faremmo informalmente test di ipotesi.

Infine, per quanto riguarda la richiesta dell'OP / Matloff, "Dai un convincente argomento sul fatto che i valori di p siano significativamente migliori", penso che la domanda sia un po 'imbarazzante. Lo dico perché, a seconda del tuo punto di vista, risponde automaticamente ("dammi un esempio concreto in cui testare un'ipotesi è meglio che non testarli"). Tuttavia, un caso speciale che ritengo quasi innegabile è quello dei dati RNAseq. In questo caso, stiamo in genere osservando il livello di espressione dell'RNA in due diversi gruppi (cioè malati, controlli) e provando a trovare geni che sono espressi in modo differenziato nei due gruppi. In questo caso, la dimensione dell'effetto stesso non è nemmeno molto significativa. Questo perché i livelli di espressione di diversi geni variano così selvaggiamente che per alcuni geni, avere un'espressione 2 volte più alta non significa nulla, mentre su altri geni strettamente regolati, l'espressione 1.2x più alta è fatale. Quindi l'entità effettiva della dimensione dell'effetto è in realtà un po 'poco interessante quando si confrontano per la prima volta i gruppi. Ma tuvoglio davvero sapere se l'espressione del gene cambia tra i gruppi e la direzione del cambiamento! Inoltre, è molto più difficile affrontare i problemi di confronti multipli (per i quali potresti averne 20.000 in una sola corsa) con intervalli di confidenza piuttosto che con valori p.


2
Non sono d'accordo sul fatto che conoscere la direzione dell'effetto sia di per sé utile. Se ho sputato per terra, so che questo sarà migliorare o inibire la crescita delle piante (vale a dire l'ipotesi nulla di nessun effetto è falso). In che modo è utile conoscere la direzione di questo effetto senza alcuna informazione sulla sua grandezza? Eppure questa è l' unica cosa che ti dice il valore p del tuo test su due lati / due test su un lato (una specie di)! (A proposito, penso che l'esempio dello "sputo per terra" sia stato preso in prestito da alcuni articoli sui valori p che ho letto anni fa, ma non ricordo quale.)
Karl Ove Hufthammer,

3
@KarlOveHufthammer: carrello davanti al cavallo. Non dovrei smettere solo perché conosco la direzione dell'effetto. Ma dovrei preoccuparmi di avere la direzione corretta prima di iniziare a preoccuparmi della grandezza. Pensi che la comunità scientifica starebbe meglio abbracciando tutto con grandi effetti stimati senza controllare i valori p?
Cliff AB,

3
Inoltre, l'idea che "i valori p non ti forniscano informazioni utili" è solo un uso sciatto del test di ipotesi. Puoi facilmente verificare le ipotesi di e se pensi che una dimensione dell'effetto deve essere di grandezza maggiore di 1 per essere comunque significativa. (modificato la risposta per riflettere questo, poiché credo che sia un punto importante. Grazie per averlo sollevato)H a : μ d < - 1Ha:μd>1Ha:μd<1
Cliff AB

2
Hai apportato diversi punti molto positivi nelle modifiche. Mi piace molto la tua risposta ora!
ameba dice Ripristina Monica il

3
Mentre lavoravo alla mia risposta a stats.stackexchange.com/questions/200500, mi sono imbattuto in questa recente prestampa di Wagenmakers et al, dove sostanzialmente sostengono il tuo punto sulla direzionalità: "I valori P unilaterali possono essere interpretati bayesiani come test approssimativo di direzione, cioè un test per stabilire se un effetto latente è negativo o positivo. " È interessante perché Wagenmakers è un bayesiano duro, ha scritto molto contro i valori p. Tuttavia, vedo un accordo concettuale qui.
ameba dice di reintegrare Monica il

6

Perdona il mio sarcasmo, ma un ovvio buon esempio dell'utilità dei valori-p è nel farsi pubblicare. Avevo avvicinato uno sperimentatore per aver prodotto un valore p ... aveva introdotto un transgene in una singola pianta per migliorare la crescita. Da quella singola pianta ha prodotto più cloni e ha scelto il clone più grande, un esempio in cui è elencata l'intera popolazione. La sua domanda, il revisore vuole vedere un valore p che questo clone è il più grande. Ho detto che in questo caso non è necessario disporre di statistiche poiché aveva l'intera popolazione a portata di mano, ma senza risultati.

Più seriamente, secondo la mia modesta opinione, dal punto di vista accademico trovo queste discussioni interessanti e stimolanti, proprio come i dibattiti frequentista e bayesiano di qualche anno fa. Mette in luce le diverse prospettive delle migliori menti in questo campo e illumina le numerose ipotesi / insidie ​​associate alla metodologia che non sono generalmente facilmente accessibili.

In pratica, penso che piuttosto che discutere dell'approccio migliore e sostituire un metro difettoso con un altro, come è stato suggerito prima altrove, per me è piuttosto una rivelazione di un problema sistemico di fondo e l'attenzione dovrebbe essere sul tentativo di trovare l'ottimale soluzioni. Ad esempio, si potrebbero presentare situazioni in cui valori p e CI si completano a vicenda e circostanze in cui una è più affidabile dell'altra. Nel grande schema delle cose, capisco che tutti gli strumenti inferenziali hanno i loro difetti che devono essere compresi in qualsiasi applicazione in modo da non ostacolare il progresso verso l'obiettivo finale ... la comprensione più profonda del sistema di studio.


6

Ti darò il caso esemplare di come utilizzare e riportare i valori di p. È un rapporto molto recente sulla ricerca di una particella misteriosa su Large Hadron Collider (LHC) nel CERN .

Qualche mese fa ci furono molte chiacchiere eccitate nei circoli della fisica delle alte energie sulla possibilità che una grande particella fosse rilevata su LHC. Ricorda che ciò avvenne dopo la scoperta del bosone di Higgs . Ecco il brano tratto dalla ricerca "Cerca le risonanze che si decompongono in coppie di fotoni in 3.2 fb − 1 di collisioni di pp a √s = 13 TeV con il rivelatore ATLAS" di The ATLAS Collaboration 15 dicembre 2015 e i miei commenti seguono:

inserisci qui la descrizione dell'immagine

Quello che stanno dicendo qui è che il conteggio degli eventi supera quello che prevede il Modello Standard . La figura seguente dal documento mostra i valori p degli eventi in eccesso in funzione di una massa di una particella. Vedi come il valore p si tuffa intorno a 750 GeV. Quindi, stanno dicendo che esiste la possibilità che venga rilevata una nuova particella con una massa pari a 750 Giga eV . I valori p nella figura sono calcolati come "locali". I valori p globali sono molto più alti. Questo non è importante per la nostra conversazione però.

La cosa importante è che i valori p non sono ancora "abbastanza bassi" per i fisici per dichiarare una scoperta, ma "abbastanza bassi" per emozionarsi. Quindi, stanno pianificando di continuare a contare e sperando che questi valori p diminuiscano ulteriormente.

inserisci qui la descrizione dell'immagine

Zoom avanti di alcuni mesi ad agosto 2016, Chicago, una conferenza su HEP . È stato presentato un nuovo rapporto "Ricerca di produzione risonante di coppie di fotoni ad alta massa utilizzando 12,9 fb-1 di collisioni protone-protone a √ s = 13 TeV e interpretazione combinata di ricerche a 8 e 13 TeV" di The CMS Collaboration questa volta. Ecco di nuovo gli estratti con i miei commenti:

inserisci qui la descrizione dell'immagine

Quindi, i ragazzi hanno continuato a collezionare eventi, e ora quel giro di eventi in eccesso a 750 GeV è sparito. La figura seguente dal documento mostra i valori di p e puoi vedere come il valore di p è aumentato rispetto al primo rapporto. Quindi, concludono tristemente che nessuna particella viene rilevata a 750 GeV.

inserisci qui la descrizione dell'immagine

Penso che sia così che dovrebbero essere usati i valori p. Hanno assolutamente un senso e funzionano chiaramente. Penso che il motivo sia che gli approcci frequentistici sono intrinsecamente naturali in fisica. Non c'è nulla di soggettivo nello scattering di particelle. Raccogli un campione abbastanza grande e ricevi un segnale chiaro se è lì.

Se sei davvero interessato a come vengono calcolati esattamente i valori p qui, leggi questo articolo : "Formule asintotiche per test basati sulla probabilità di nuova fisica" di Cowan et al


2
Tutti speravano che il picco di 750 GeV fosse reale e ora triste. Ma speravo davvero che si rivelasse una fluttuazione (e avrei potuto scommettere che lo sarebbe) e ora sono sollevato. Penso che sia bello che il modello standard funzioni così bene. Non capisco bene il desiderio ardente di andare oltre il modello standard (come se tutto il resto in fisica fosse risolto). Comunque, +1, buon esempio.
ameba dice di reintegrare Monica il

2

Le altre spiegazioni vanno bene, volevo solo provare a dare una risposta breve e diretta alla domanda che mi è venuta in mente.

Verifica degli squilibri covariati in esperimenti randomizzati

La tua seconda affermazione (sulle ipotesi nulle non realistiche) non è vera quando controlliamo l'equilibrio covariato in esperimenti randomizzati in cui sappiamo che la randomizzazione è stata eseguita correttamente. In questo caso, sappiamo che l'ipotesi nulla è vera. Se otteniamo una differenza significativa tra il trattamento e il gruppo di controllo su alcune covariate - dopo aver controllato per confronti multipli, ovviamente - allora ciò ci dice che abbiamo avuto un "brutto sorteggio" nella randomizzazione e forse non dovremmo fidarci della stima causale come tanto. Questo perché potremmo pensare che le nostre stime degli effetti del trattamento da questa particolare randomizzazione "cattiva estrazione" siano più lontane dagli effetti reali del trattamento rispetto alle stime ottenute da una "buona estrazione".

Penso che questo sia un uso perfetto dei valori di p. Usa la definizione di p-value: la probabilità di ottenere un valore come o più estremo data l'ipotesi nulla. Se il risultato è altamente improbabile, allora abbiamo effettivamente ottenuto un "brutto pareggio".

Le tabelle / statistiche di bilancio sono comuni anche quando si usano i dati osservativi per cercare di fare inferenze causali (ad es. Corrispondenza, esperimenti naturali). Sebbene in questi casi le tabelle di bilancio siano tutt'altro che sufficienti per giustificare un'etichetta "causale" alle stime.


Non sono d'accordo sul fatto che questo sia un uso perfetto (o addirittura buono) dei valori di p. Come si definisce una "cattiva estrazione"?
mark999,

2
@mark, Okay. Penso di poter rispondere alla tua ultima domanda mentre Matt è assente: ovviamente nel campione. Immagina un esperimento randomizzato con 50 persone. Immagina che sia successo così che tutte e 25 le persone del gruppo A si sono rivelate uomini e tutte e 25 le persone del gruppo B si sono rivelate donne. È abbastanza ovvio che ciò può sollevare seri dubbi su qualsiasi conclusione dello studio; questo è un esempio di "cattiva estrazione". Matt ha suggerito di eseguire un test per le differenze di genere (covariata) tra A e B. Non vedo come la risposta di Matt possa essere interpretata in modo diverso. Probabilmente non ci sono popolazioni qui.
ameba dice Ripristina Monica il

1
@ mark999 Ma un test per la differenza tra il 12/25 e il 13/25 produrrà ovviamente un valore p non significativo, quindi non sono sicuro di quale sia il tuo punto qui. Matt ha suggerito di eseguire un test e di considerare un valore p basso come una bandiera rossa. Nessuna bandiera rossa nel tuo esempio. Penso che mi fermerò qui e lascerò che Matt continui il dialogo se lo desidera.
ameba dice Ripristina Monica il

4
No. Vedi 'fallacia del test di bilanciamento': gking.harvard.edu/files/matchse.pdf Descrivi un caso in cui la statistica del test stessa potrebbe andare bene (usata come misura della distanza per minimizzare) ma un valore p perché non fa senso.
coniugato

2
Per un esame più recente di questo in psico-neurolinguistica, c'è una nuova prestampa di arXiv . Quando stai deliberando di manipolare l'equilibrio, ecc., Non stai campionando a caso e, anche se lo fossi, i test rispondono a una domanda inferenziale diversa sull'equilibrio nella popolazione e non sull'equilibrio nel campione.
Livio

2

Il controllo dei tassi di errore è simile al controllo di qualità in produzione. Un robot in una linea di produzione ha una regola per decidere che una parte è difettosa, il che garantisce di non superare un tasso specificato di parti difettose che passano inosservate. Allo stesso modo, un'agenzia che prende decisioni per l'approvazione di farmaci sulla base di valori P "onesti" ha un modo per mantenere il tasso di falsi rifiuti a livello controllato, per definizione attraverso la costruzione di test a lungo termine frequentista. Qui, "onesto" significa assenza di distorsioni incontrollate, selezioni nascoste, ecc.

Tuttavia, né il robot, né l'agenzia hanno un interesse personale in alcun particolare farmaco o parte che passa attraverso il trasportatore di assemblaggio. Nella scienza, d'altra parte, come singoli investigatori ci preoccupiamo maggiormente della particolare ipotesi che studiamo, piuttosto che della proporzione di affermazioni spurie nel nostro diario preferito a cui sottoponiamo. Né la grandezza del valore P né i limiti di un intervallo di confidenza (CI) si riferiscono direttamente alla nostra domanda sulla credibilità di ciò che riportiamo. Quando costruiamo i limiti di CI, dovremmo dire che l'unico significato dei due numeri è che se altri scienziati fanno lo stesso tipo di calcolo di CI nei loro studi, il 95% o qualunque copertura sarà mantenuta su vari studi nel loro insieme .

Alla luce di ciò, trovo ironico che i valori P siano "vietati" dalle riviste, considerando che nella fitta crisi della replicabilità hanno più valore per gli editori di riviste che per i ricercatori che inviano i loro documenti, come un modo pratico per mantenere tasso di scoperte spurie riportate da un diario a lungo termine. I valori P sono bravi a filtrare, o come ha scritto IJ Good, sono buoni per proteggere la parte posteriore dello statistico, ma non tanto la parte posteriore del client.

PS Sono un grande fan dell'idea di Benjamini e Hochberg di affrontare le aspettative incondizionate negli studi con più test. Sotto il "null" globale, la FDR "frequentista" è ancora controllata - gli studi con uno o più rifiuti si verificano in un diario a una velocità controllata, sebbene, in questo caso, qualsiasi studio in cui siano stati effettivamente fatti alcuni rifiuti abbia la proporzione di falsi rifiuti pari a uno.


1

Concordo con Matt sul fatto che i valori p sono utili quando l'ipotesi nulla è vera.

L'esempio più semplice che mi viene in mente è testare un generatore di numeri casuali. Se il generatore funziona correttamente, è possibile utilizzare qualsiasi dimensione del campione appropriata per le realizzazioni e quando si verifica l'adattamento su molti campioni, i valori p dovrebbero avere una distribuzione uniforme. Se lo fanno, questa è una buona prova per una corretta implementazione. In caso contrario, sai di aver fatto un errore da qualche parte.

Altre situazioni simili si verificano quando sai che una variabile statistica o casuale dovrebbe avere una certa distribuzione (di nuovo, il contesto più ovvio è la simulazione). Se i valori p sono uniformi, è stato trovato il supporto per un'implementazione valida. In caso contrario, sai di avere un problema da qualche parte nel tuo codice.


1

Posso pensare all'esempio in cui i valori di p sono utili, nella Fisica sperimentale ad alta energia. Vedi Fig. 1 Questo diagramma è tratto da questo documento: Osservazione di una nuova particella nella ricerca del bosone di Higgs del modello standard con il rivelatore ATLAS presso l'LHC

In questa Fig, il valore p è mostrato rispetto alla massa di una particella ipotetica. L'ipotesi nulla indica la compatibilità dell'osservazione con uno sfondo continuo. La grande deviazione ( ) a m GeV è stata la prima prova e scoperta di una nuova particella. Questo è valso a François Englert, Peter Higgs il premio Nobel per la fisica nel 2013.H1255σH125

inserisci qui la descrizione dell'immagine


1
Devi fornire ulteriori informazioni sulla trama, con lo sfondo e come affronta la domanda originale. Questa non è abbastanza informazione.
Greenparker

@Greenparker, ho provato ad aggiungere un po 'di sfondo alla trama.
Nicolas Gutierrez,

Non hai spiegato cos'è una banda blu±1σ
Aksakal
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.