Spiega il fumetto di jelly bean xkcd: cosa lo rende divertente?

Vedo che una volta su venti test totali eseguiti, , quindi presumono erroneamente che durante uno dei venti test, il risultato è significativo ( ). $p < 0.05$ $0.05 = 1/20$

fumetto di jelly bean xkcd - "Significant"

Titolo: significativo
Testo al passaggio del mouse: "'Quindi, abbiamo fatto di nuovo lo studio verde e non abbiamo trovato alcun collegamento. Probabilmente era un ...' 'RICERCA CONFLITTA SU GREEN JELLY BEAN / ACNE LINK; PIÙ STUDI CONSIGLIATI!'"

xkcd comic 882 - "Significant"

— DJG
fonte

Una fiducia del 95% significherà che in media nel 5% degli esperimenti (uno su 20) otterremo una conclusione opposta. È esattamente quello che è successo qui. Cioè, se fai anche lo stesso esperimento con gelatine d'arancia 1000 volte, ~ 50 di questi daranno risultati positivi. :)

— sashkello,

Chi l'ha detto che è divertente?

— whuber

Io stesso, oltre agli altri 59 elettori qui , quindi almeno ! ;-P (Questo commento sicuramente non rappresenta la mia opinione su XKCD in generale.) A meno che non esista qualcosa come , nel qual caso probabilmente vorremmo dati migliori. Nessuno l'ha ancora votato, FWIW come operazionalizzazione disponibile della "stranezza negativa" ... e con ciò, ho probabilmente portato questo commento in un territorio divertente ...

funniness > 0

$\text{funniness}>0$

funniness < 0

$\text{funniness}<0$

(p < .05)

$(p<.05)$

— Nick Stauner,

Vedi anche questa discussione su spiegatoxkcd.com

— Jeromy Anglim,

@Glen_b, il thread del fumetto preferito per l'analisi dei dati è appropriatamente in CW, tuttavia non vedo alcun motivo per cui questo dovrebbe essere. 'Perché divertente' a parte, la domanda richiede una comprensione del punto statistico in questione nel cartone animato, che ha una risposta e dovrebbe essere in tema e non-CW (e che penso che tu abbia gestito molto sotto).

— gung - Ripristina Monica

Risposte:

L'umorismo è una cosa molto personale - alcune persone lo troveranno divertente, ma potrebbe non essere divertente per tutti - e tenta di spiegare ciò che rende qualcosa di divertente spesso non riesce a trasmettere il divertente, anche se spiegano il punto sottostante. In effetti, non tutti gli xkcd sono pensati per essere davvero divertenti. Molti, tuttavia, sottolineano punti importanti in un modo che sembra stimolante, e almeno a volte sono divertenti mentre lo fanno. (Personalmente lo trovo divertente, ma trovo difficile spiegare chiaramente cosa, esattamente, mi renda divertente. Penso che in parte sia il riconoscimento del modo in cui un risultato dubbio o addirittura dubbio si trasforma in un circo mediatico ( sul quale vedi anche questo fumetto di dottorato di ricerca ), e forse in parte il riconoscimento del modo in cui alcune ricerche potrebbero effettivamente essere condotte - se di solito non consapevolmente.)

Tuttavia, si può apprezzare il punto se solletica o meno il tuo funnybone.

Il punto è fare test multipli di ipotesi ad un livello di significatività moderato come il 5%, e quindi pubblicizzare quello che è risultato significativo. Naturalmente, se si eseguono 20 test di questo tipo quando in realtà non c'è nulla di importante in corso, il numero previsto di tali test per ottenere un risultato significativo è 1. Fare un'approssimazione approssimativa in testa per test a livello di significatività , c'è circa il 37% di probabilità di nessun risultato significativo, circa il 37% di probabilità di uno e circa il 26% di possibilità di più di uno (ho appena controllato le risposte esatte; sono abbastanza vicine a quello). $n$ $\frac{1}{n}$

Nel fumetto, Randall ha rappresentato 20 test, quindi questo è senza dubbio il suo punto (che ti aspetti di ottenere uno significativo anche quando non c'è nulla da fare). L'articolo di giornale fittizio sottolinea addirittura il problema con il sottotitolo "Solo il 5% di possibilità di coincidenza!". (Se l'unico test che è finito nei documenti è stato il solo fatto, potrebbe essere il caso.)

Naturalmente, c'è anche il problema più sottile che un singolo ricercatore può comportarsi in modo molto più ragionevole, ma si verifica ancora il problema della pubblicità dilagante di falsi positivi . Diciamo che questi ricercatori eseguono solo 5 test, ciascuno al livello dell'1%, quindi la loro probabilità complessiva di scoprire un risultato falso del genere è solo del 5% circa.

Fin qui tutto bene. Ma ora immagina che ci siano 20 gruppi di ricerca di questo tipo, ognuno dei quali verifica qualsiasi sottoinsieme casuale di colori che pensa di avere motivo di provare. O 100 gruppi di ricerca ... quale possibilità di un titolo come quello del fumetto adesso?

Quindi, più in generale, il fumetto potrebbe riferirsi al pregiudizio della pubblicazione in generale. Se vengono trombati solo risultati significativi, non sentiremo parlare di decine di gruppi che non hanno trovato nulla per i jellybean verdi, ma solo quello che l'ha fatto.

In effetti, questo è uno dei punti principali sollevati in questo articolo , che è stato nelle notizie negli ultimi mesi ( ad esempio qui , anche se è un articolo del 2005).

Una risposta a quell'articolo sottolinea la necessità di replicarsi. Si noti che se ci fossero diverse repliche dello studio che è stato pubblicato, il risultato "Gelatine verdi legate all'acne" sarebbe molto improbabile.

(E in effetti, il testo al passaggio del mouse per il fumetto fa un riferimento intelligente allo stesso punto.)

— Glen_b
fonte

L'effetto del test di ipotesi sulla decisione di pubblicare è stato descritto più di cinquant'anni fa nel documento JASA del 1959 Decisioni di pubblicazione e i loro possibili effetti sulle inferenze tratte da test di significatività - o Vice Versa (scusate il paywall).

Panoramica del documento Il documento evidenzia che i risultati pubblicati di articoli scientifici non sono un campione rappresentativo dei risultati di tutti gli studi. L'autore ha esaminato articoli pubblicati in quattro importanti riviste di psicologia. Il 97% degli articoli recensiti ha riportato risultati statisticamente significativi per le loro principali ipotesi scientifiche.

L'autore avanza una possibile spiegazione per questa osservazione: quella ricerca che produce risultati non significativi non viene pubblicata. Tale ricerca, sconosciuta ad altri investigatori, può essere ripetuta in modo indipendente fino a quando per caso si verifica un risultato significativo (un errore di tipo 1) e viene pubblicata. Questo apre la porta alla possibilità che la letteratura scientifica pubblicata possa includere una sovrarappresentazione di risultati errati risultanti da errori di tipo 1 nei test di significatività statistica - esattamente lo scenario in cui il fumetto originale XKCD si stava prendendo in giro.

Questa osservazione generale è stata successivamente verificata e riscoperta più volte negli anni successivi. Credo che il documento JASA del 1959 sia stato il primo a far avanzare l'ipotesi. L'autore di quel documento era il mio supervisore di dottorato. Abbiamo aggiornato il suo documento del 1959 35 anni dopo e abbiamo raggiunto le stesse conclusioni. Decisioni di pubblicazione rivisitate: l'effetto del risultato dei test statistici sulla decisione di pubblicare e viceversa. Statistico americano, volume 49, n. 1, febbraio 1995

— Wilf Rosenbaum
fonte

Certo: ho modificato la mia risposta sopra per includere una panoramica del documento.

— Wilf Rosenbaum,

Correlati: en.wikipedia.org/wiki/Half-life_of_knowledge

— kjetil b halvorsen

-2

Ciò che la gente trascura è che il valore p reale per il caso di jelly bean verde non è 0,05 ma intorno a 0,64. Solo il valore p (nominale) di pretesa è 0,05. C'è una differenza tra i valori p reali e quelli finti. La probabilità di trovare 1 su 20 che raggiungono il livello nominale anche se tutti i valori nulli sono veri NON è .05, ma .64. D'altra parte, se si valutano le prove che esaminano le probabilità comparative, la visione più popolare a parte quella statistica dell'errore (entro la quale risiedono i valori di p) si dirà che ci sono prove per H: i fagioli di gelatina verdi sono realmente correlati con l'acne. Questo perché P (x; nessun effetto) <P (x; H). Il lato sinistro è <.05, mentre il lato destro è abbastanza alto: se le fave di gelatina verdi causassero l'acne, sarebbe probabile trovare l'associazione osservata. Le probabilità da sole non riescono a rilevare le probabilità di errore perché si condizionano sui dati effettivamente raggiunti. Non c'è alcuna differenza nella valutazione che se ci fosse stato questo test delle gelatine verdi e dell'acne. Quindi, anche se questo cartone animato viene spesso visto come prendere in giro i valori di p, la cosa divertente che lo dimostra dimostra perché dobbiamo considerare la probabilità di errore complessiva (come fanno i valori di non pretesa p) e non semplicemente le probabilità. Anche l'inferenza bayesiana è condizionata dal risultato, ignorando le probabilità di errore. L'unico modo per evitare di trovare prove per H, per un bayesiano sarebbe quello di avere un precedente basso in H. Ma regoleremo il valore p indipendentemente dall'argomento e senza fare affidamento su priori, a causa della procedura di caccia utilizzata per trovare l'ipotesi da testare. Anche se la H che era stata cacciata era credibile, è ' è ancora un test pessimo. Errorstatistics.com

— user48784
fonte

È molto difficile dire esattamente cosa sta cercando di dire questo post. Consentitemi di concentrarmi su una parte di esso, sperando che un chiarimento possa rivelare il significato del resto: cosa intendete esattamente con "probabilità complessiva di errore"?

— whuber

@whuber Credo che il post si riferisca al problema dei confronti multipli.

— Matt,