Origine della soglia "5 " per accettare prove nella fisica delle particelle?

33

Notizie riportano che il CERN annuncerà domani che il bosone di Higgs è stato rilevato sperimentalmente con prove 5 . Secondo tale articolo: $\sigma$

5 equivale a una probabilità del 99,9994% che i dati rilevati dai rilevatori CMS e ATLAS non siano solo rumore casuale - e una probabilità dello 0,00006% che siano stati ingannati; 5 è la certezza necessaria affinché qualcosa sia ufficialmente etichettato come una "scoperta" scientifica. $\sigma$ $\sigma$

Questo non è super rigoroso, ma sembra che i fisici utilizzino la metodologia statistica standard per "test di ipotesi", impostando su , che corrisponde a (a due code)? O c'è qualche altro significato? $\alpha$ $0.0000006$ $z=5$

In gran parte della scienza, ovviamente, l'impostazione dell'alfa su 0,05 viene eseguita di routine. Ciò equivarrebbe all'evidenza "two- ", sebbene non ne abbia mai sentito parlare. Ci sono altri campi (oltre alla fisica delle particelle) in cui una definizione molto più rigorosa di alfa è standard? Qualcuno sa un riferimento per come la regola del cinque- stata accettata dalla fisica delle particelle? $\sigma$ $\sigma$

Aggiornamento: sto ponendo questa domanda per un semplice motivo. Il mio libro Intuitive Biostatistics (come la maggior parte dei libri di statistica) ha una sezione che spiega quanto arbitraria sia la solita regola "P <0,05". Vorrei aggiungere questo esempio di un campo scientifico in cui un valore molto (molto!) Minore di è considerato necessario. Ma se l'esempio è in realtà più complicato, con l'uso dei metodi bayesiani (come suggeriscono alcuni commenti sotto), allora non sarebbe del tutto appropriato o richiederebbe molte più spiegazioni. $\alpha$

hypothesis-testing p-value history

— Harvey Motulsky
fonte

2

Hai mai sentito parlare di "Six Sigma" ?

— Daniel R Hicks,

Nel controllo di qualità, sei sigma sono considerati come suggerisce Daniel con la sua domanda / osservazione. Tutte queste probabilità di rifiuto presuppongono il campionamento da una distribuzione normale e le probabilità di coda potrebbero essere maggiori per altre distribuzioni. L'uso di tali estremi come 5 o 6 sigma può essere utile solo in circostanze speciali. In pratica, la dimensione del campione e la variabilità nei dati rendono impossibile inferire oltre 2 o 3 sigma.

— Michael R. Chernick,

1

Fondamentalmente, la maggior parte dei fisici delle particelle è più a suo agio con le idee bayesiane nel calcolo dei parametri, quindi in realtà sono " sicuri, dati e dati precedenti, che il segnale di Higgs non è zero", il che è certamente diverso dal dire che c'è solo "0,01 percento di probabilità che il segnale sia un rumore casuale" (ci sono anche fluttuazioni non casuali derivanti dalla sistematica!). [1]: physics.stackexchange.com/questions/8752/…

X %

$X\%$

— Néstor

3

@Néstor: sto guardando la trasmissione in diretta della conferenza stampa di Higgs ora, e nessuno menziona interpretazioni bayesiane. Vengono usati "valori-p" e "livello di significatività", ma solo bayesiani orribilmente male interpretati potrebbero interpretare quelli come probabilità che il segnale sia un rumore casuale. Penso che il testo nella citazione nella domanda del PO sia semplicemente una cattiva interpretazione di ciò che un valore p è veramente.

— Martedì

1

A proposito, ho pubblicato un post sul mio blog su questo problema: randomastronomy.wordpress.com .

— Néstor,

13

Nella maggior parte delle applicazioni delle statistiche c'è quella vecchia castagna su "tutti i modelli sono sbagliati, alcuni sono utili". Stando così le cose, ci saremmo aspettati che un modello funzionasse solo a un dato livello poiché stiamo descrivendo un processo incredibilmente complicato usando un modello semplice.

La fisica è molto diversa, quindi l'intuizione sviluppata dai modelli statistici non è così appropriata. In Fisica, in particolare la fisica delle particelle che si occupa direttamente delle leggi fisiche fondamentali, si suppone che il modello sia una descrizione esatta della realtà. Qualsiasi deviazione da ciò che il modello prevede deve essere completamente spiegata dal rumore sperimentale, non una limitazione del modello. Ciò significa che se il modello è buono e corretto e l'apparato sperimentale ha compreso il significato statistico dovrebbe essere molto alto, quindi la barra alta che è impostata.

L'altra ragione è storica, la comunità della fisica delle particelle è stata bruciata in passato da "scoperte" a livelli di significato più bassi che sono state successivamente ritirate, quindi ora sono generalmente più caute.

— Bogdanovist
fonte

1

Sei d'accordo sul fatto che la fisica utilizza test di ipotesi statistiche standard con un alfa molto basso (in questo caso, comunque). O usano una sorta di approccio bayesiano come ha detto Nestor in un commento sopra?

— Harvey Motulsky,

2

La mia comprensione dal parlare con alcune delle persone che conosco che lavorano su ATLAS è che l'analisi è tutta molto bayesiana. Tuttavia sono ragazzi di livello inferiore (cioè quelli che svolgono effettivamente il lavoro). Non mi sorprenderebbe se alcune delle teste che parlavano più in alto nella catena avessero una comprensione più scarsa dell'interpretazione. Detto questo, la presentazione dei risultati di LHC è stata piuttosto scadente, e non si è rivelata molto bayesiana, come altri hanno notato.

— Bogdanovist,

2

Ho sempre pensato che la fisica delle particelle, in particolare, si occupasse anche di miliardi di eventi, quindi devi impostare il livello molto alto.

— Wayne,

11

Storia e origine

Secondo Robert D Cousins e Tommaso Dorigo , l'origine dell'origine della soglia risiede nei primi lavori di fisica delle particelle degli anni '60, quando furono esaminati numerosi istogrammi di esperimenti di scattering e cercarono picchi / dossi che potrebbe indicare alcune particelle scoperte di recente. La soglia è una regola approssimativa per tenere conto dei molteplici confronti che vengono effettuati. $^{1}$ $^{2}$ $5\sigma$

Entrambi gli autori fanno riferimento a un articolo di Rosenfeld 1968 , che trattava la questione se esistessero o meno mesoni e barioni lontani, per i quali misurati diversi effetti . L'articolo ha risposto negativamente alla domanda sostenendo che il numero di richieste pubblicate corrisponde al numero statisticamente previsto di fluttuazioni. Insieme a diversi calcoli a supporto di questo argomento, l'articolo ha promosso l'uso del livello : $^3$ $4 \sigma$ $5\sigma$

Rosenfeld: "Prima di continuare a esaminare spettri di massa lontani in cui sono stati segnalati dossi in dovremmo prima decidere cosa soglia di significatività da richiedere nel 1968. Voglio mostrarti che sebbene gli sperimentatori dovrebbero probabilmente notare gli effetti , teorici e fenomenologi farebbero meglio ad aspettare che l'effetto raggiunga ". $(K\pi\pi)_{3/2},(\pi \rho)^{--}$ $3\sigma$ $>4\sigma$

e più avanti nel documento (l'enfasi è mia)

Rosenfeld: "Quindi ripetere il mio avvertimento all'inizio di questa sezione; stiamo generando almeno 100.000 potenziali dossi all'anno e dovremmo aspettarci diverse fluttuazioni di e centinaia di . Quali sono le implicazioni? Per il teorico o fenomenologo la morale è semplice; attendi gli effetti . " $4\sigma$ $3\sigma$ $5\sigma$

Tommaso sembra stare attento nel dichiarare che è iniziato con l'articolo di Rosenfeld

Tommaso: "Tuttavia, dovremmo notare che l'articolo è stato scritto nel 1968, ma il severo criterio di cinque deviazioni standard per i reclami di scoperta non è stato adottato negli anni settanta e ottanta. Ad esempio, non è stato usato nessun criterio come il cinque sigma per la scoperta dei bosoni W e Z, che hanno conferito a Rubbia e Van der Meer il premio Nobel per la fisica nel 1984. "

Ma negli anni '80 l'uso del fu diffuso. Ad esempio, l'astronomo Steve Schneider menziona nel 1989 che è qualcosa che viene insegnato (enfatizza il mio nella citazione seguente): $5\sigma$ $^4$

Schneider: "Spesso vengono citati" livelli di confidenza "del 95% o del 99% per dati apparentemente discrepanti, ma ciò equivale a solo due o tre sigmi statistici. Mi è stato insegnato a non credere a meno di cinque sigma , che se si pensa è un requisito assurdamente rigoroso --- qualcosa come un livello di confidenza del 99,9999%, ma ovviamente un tale limite viene usato perché la dimensione effettiva del sigma non è quasi mai conosciuta. Ci sono troppe variabili libere in astronomia che possiamo controlla o non lo so. "

Tuttavia, nel campo della fisica delle particelle molte pubblicazioni erano ancora basate su discrepanze di fino alla fine degli anni '90. Questo cambiò solo in all'inizio del 21 ° secolo. Probabilmente è prescritto come linea guida per le pubblicazioni intorno al 2003 (vedi il prologo nel libro di Franklin Shifting Standards ) $4\sigma$ $5\sigma$ $^5$

Franklin: Nel 2003 il criterio di 5 deviazioni standard per "l'osservazione di" sembra essere entrato in vigore

...

Un membro della collaborazione BaBar ricorda che in questo periodo il criterio 5-sigma è stato emesso come linea guida dagli editori delle Physical Review Letters

Uso moderno

Attualmente, la soglia è uno standard da manuale. Ad esempio, si presenta come un articolo standard su physics.org o in alcune delle opere di Glen Cowan, come la sezione delle statistiche di Review of Particle Physics dal gruppo di dati delle particelle (sebbene con diversi sidenotes critici) $5\sigma$ $^6$ $^7$

Glen Cowan: Spesso in HEP, il livello di significatività in cui si dice che un effetto si qualifica come una scoperta è $Z = 5$ , cioè un effetto , corrispondente a un valore p di . La reale convinzione che sia presente un nuovo processo, tuttavia, dipenderà in generale anche da altri fattori, come la plausibilità della nuova ipotesi di segnale e il grado in cui può descrivere i dati, la fiducia nel modello che ha portato al valore p osservato e possibili correzioni per più osservazioni da cui uno si concentra sul valore p più piccolo ottenuto (l '"effetto look altrove"). $5\sigma$ $2.87 \times 10^{−7}$

L'uso del livello è ora attribuito a 4 motivi: $5\sigma$

La storia basata sulla pratica ha scoperto che è una buona soglia. (cose esotiche sembrano accadere in modo casuale, anche tra e , come recentemente l' eccesso di difotoni da 750 GeV ) $5\sigma$ $3\sigma$ $4\sigma$
L' effetto look elsewhere (o i confronti multipli ). O perché vengono testate più ipotesi o perché gli esperimenti vengono eseguiti più volte, le persone si adattano a questo (molto approssimativamente) regolando il limite su . Questo si riferisce all'argomento della storia. $5\sigma$
Effetti sistematici e incertezza in $\sigma$ spesso l'incertezza del risultato dell'esperimento non è ben nota. Il è derivato, ma la derivazione include ipotesi deboli come l'assenza di effetti sistematici o la possibilità di ignorarli. Aumentare la soglia sembra essere un modo per proteggere da questi eventi. (Questo è un po 'strano però. Il calcolato non ha alcuna relazione con la dimensione degli effetti sistematici e la logica si rompe, un esempio è la "scoperta" di neutrini superluminali che è stato segnalato avere un significato di .) $\sigma$ $\sigma$ $6\sigma$
Affermazioni straordinarie richiedono prove straordinarie I risultati scientifici sono riportati in modo frequentista, ad esempio utilizzando intervalli di confidenza o valori p. Ma sono spesso interpretati in modo bayesiano. Illivelloè ritenuto responsabile di questo. $5\sigma$

Attualmente diverse critiche sono state scritte sulla soglia del da Louis Lyons , e anche i precedenti articoli di Robert D Cousins e Tommaso Dorigo forniscono una critica. $5\sigma$ ${^{8,}}$ $^9$ $^{1}$ $^{2}$

Altri campi

È interessante notare che molti altri settori scientifici non hanno soglie simili o, in qualche modo, non affrontano il problema. Immagino che ciò abbia un senso nel caso di esperimenti con umani in cui è molto costoso (o impossibile) estendere un esperimento che ha dato un significato di 0,05 o 0,01.

Il risultato della mancata considerazione di questi effetti è che oltre la metà dei risultati pubblicati potrebbe essere errata o almeno non riproducibile (questo è stato sostenuto per il caso della psicologia da Monya Baker , e credo che ci siano molti altri che hanno avanzato argomenti simili. Personalmente penso che la situazione potrebbe essere ancora peggiore nella scienza nutrizionale). E ora, persone di altri settori oltre alla fisica stanno pensando a come dovrebbero affrontare questo problema (il caso della medicina / farmacologia ). $^{10}$ $^{11}$

Cousins, RD (2017). Paradosso Jeffreys-Lindley e criteri di scoperta nella fisica delle alte energie. Synthese, 194 (2), 395-432. collegamento arxiv
Dorigo, T. (2013) Demystifying The Five-Sigma Criterion, from science20.com 2019-03-07
Rosenfeld, AH (1968). Ci sono mesoni o barioni lontani? fonte web: borsa di studio
Burbidge, G., Roberts, M., Schneider, S., Sharp, N., & Tifft, W. (1990, novembre). Discussione del panel: problemi relativi a Redshift. In NASA Conference Publication (Vol. 3098, p. 462). collegamento alla fotocopia su harvard.edu
Franklin, A. (2013). Norme mutevoli: esperimenti di fisica delle particelle nel XX secolo. Università di Pittsburgh Press.
Cosa significa il 5 sigma? da physics.org 2019-03-07
Beringer, J., Arguin, JF, Barnett, RM, Copic, K., Dahl, O., Groom, DE, ... & Yao, WM (2012). Revisione della fisica delle particelle. Physical Review D-Particles, Fields, Gravitation and Cosmology, 86 (1), 010001. (sezione 36.2.2. Test di significatività, pagina 394, link aps.org )
Lyons, L. (2013). Alla scoperta del significato di 5 sigma. arXiv prestampa arXiv: 1310.1284. collegamento arxiv
Lyons, L. (2014). Problemi statistici nelle ricerche di nuova fisica. arXiv prestampa link arxiv
Baker, M. (2015). Oltre la metà degli studi psicologici non supera il test di riproducibilità. Notizie sulla natura. da nature.com 2019-03-07
Horton, R. (2015). Offline: qual è il 5 sigma della medicina ?. The Lancet, 385 (9976), 1380. da thelancet.com 2019-03-07

— Sesto Empirico
fonte

4

Per una ragione completamente diversa da quella della fisica, ci sono altri campi con alfa molto più rigorosi quando si impegnano nel test di ipotesi. L'epidemiologia genetica è tra questi, specialmente quando usano "GWAS" (Genome-Wide Association Study) per esaminare vari marcatori genetici per la malattia.

Poiché uno studio GWAS è un esercizio enorme nel test di ipotesi multiple, le tecniche di analisi all'avanguardia sono tutte costruite attorno a alfa molto più rigorosi di 0,05. Altre tecniche di studio di "screening dei candidati" che seguono a seguito degli studi di genomica probabilmente faranno lo stesso.

— fomite
fonte

2

α

$\alpha$

3

Il livello è così alto da evitare annunci prematuri di notizie che in seguito si rivelano false. Per ulteriori discussioni su questo, vedi

https://physics.stackexchange.com/questions/8752/standard-deviation-in-particle-physics?rq=1

https://physics.stackexchange.com/questions/31126/how-many-sigma-did-the-discovery-of-the-w-boson-have

— Arnold Neumaier
fonte