Cosa c'è che non va nel fumetto Frequentists vs. Bayesians di XKCD?


113

numero comico xkcd 1132

Questo fumetto xkcd (Frequentists vs. Bayesians) prende in giro uno statistico frequentista che ottiene un risultato ovviamente sbagliato.

Tuttavia, mi sembra che il suo ragionamento sia effettivamente corretto, nel senso che segue la metodologia frequentista standard.

Quindi la mia domanda è "applica correttamente la metodologia frequentista?"

  • Se no: quale sarebbe una corretta inferenza del frequentatore in questo scenario? Come integrare la "conoscenza precedente" sulla stabilità del sole nella metodologia frequentista?
  • Se sì: wtf? ;-)

17
Discussione sul blog di Gelman: andrewgelman.com/2012/11/16808
Glen,

5
Penso che molto sia sbagliato, sia dal punto di vista frequentista che bayesiano. La mia più grande critica ciascuna: in primo luogo, i valori di P sono in definitiva euristici e sono proprietà di una serie di cose tra cui il problema statistico, i dati e l'esperimento. Qui, tutti e tre sono gravemente travisati per quella particolare domanda. In secondo luogo, il "bayesiano" utilizza un approccio teorico decisionale che non deve necessariamente essere bayesiano. È divertente, però.
Momo,

5
Per toglierlo dal regno delle statistiche ... il sole non è abbastanza grande per andare in Nova. QED, il bayesiano ha ragione. ( Il Sole diventerà invece un Gigante Rosso )
Ben Brocka,

3
@Glen et alii, in particolare, nota la risposta di Randall Munroe a Gelman: andrewgelman.com/2012/11/16808/#comment-109366
jthetzel,

2
Il motivo per cui lo statistico frequentista qui è stupido non è perché è un frequentista, ma perché ovviamente sa come funziona la macchina, quindi sa che è una misurazione inappropriata - e fa comunque un'inferenza.
rvl

Risposte:


44

Il problema principale è che il primo esperimento (Sun gone nova) non è ripetibile, il che lo rende altamente inadatto per la metodologia frequentista che interpreta la probabilità come stima della frequenza con cui un evento sta dando che possiamo ripetere l'esperimento molte volte. Al contrario, la probabilità bayesiana viene interpretata come il nostro grado di convinzione che fornisce tutta la conoscenza precedente disponibile, rendendola adatta al ragionamento del buon senso sugli eventi di una volta. L'esperimento del lancio dei dadi è ripetibile, ma trovo molto improbabile che qualsiasi frequentatore ignori intenzionalmente l'influenza del primo esperimento e sia così fiducioso nel significato dei risultati ottenuti.

Anche se sembra che l'autore deridi la dipendenza del frequentatore da esperimenti ripetibili e la loro sfiducia nei confronti dei priori, dando l'inadeguatezza dell'impostazione sperimentale alla metodologia frequentista, direi che il vero tema di questo fumetto non è la metodologia frequentista ma il cieco seguito di una metodologia inadatta in generale. Che sia divertente o no dipende da te (per me lo è) ma penso che sia più fuorviante che chiarire le differenze tra i due approcci.


1
(+1) Un bel riferimento a questa assunzione forte e cruciale della ripetibilità nel frequentismo è Inferenza statistica nella scienza (2000) , capitolo 1. (Sebbene ci siano così tanti problemi che è difficile dire quale sia il principale )

36
Non così in fretta con l'argomento della ripetibilità ... In primo luogo, l'esperimento ripetibile è l'interrogazione della macchina, non del sole che va in nova. La verità è che l'oggetto di inferenza è fisso ma sconosciuto. L'esperimento di interrogazione può certamente essere ripetuto, e se fosse per qualche altra volta la strategia del frequentista potrebbe facilmente sembrare ragionevole.
conjugateprior

6
In secondo luogo, non si dovrebbe essere troppo severi nel settore della ripetibilità, per evitare che i frequentatori restino bloccati non potendo dedurre nulla in situazioni non sperimentali. Supponiamo per un momento che "sun going nova" sia stato l'evento candidato. Non sono un fisico, ma mi è stato detto che l'evento 'sun going nova' accade piuttosto spesso (solo non tanto da queste parti), quindi questo mi sembra una ripetizione. In ogni caso, gente come David Cox (in "Foundations of Statistics") dice allegramente cose come: "le ripetizioni contemplate sono quasi sempre ipotetiche . Questo di per sé non sembra avere alcun inconveniente".
conjugateprior

7
Potremmo vedere il sole come un campione casuale da una popolazione di soli in universi paralleli in cui in linea di principio potremmo ripetere l'esperimento se solo avessimo uno specchio quantico! ; o)
Dikran Marsupial,

2
Perché il controllo del sole che esplode non è ripetibile? Controllo ogni mattina e non è ancora esploso.
GKFX,

27

Per quanto posso vedere il bit frequentista è ragionevole finora:

Sia l'ipotesi che il sole non sia esploso e sia l'ipotesi che ha. Il valore p è quindi la probabilità di osservare il risultato (la macchina dice "sì") sotto . Supponendo che la macchina rilevi correttamente la presenza di assenza di neutrini, quindi se la macchina dice "sì" sotto , è perché la macchina ci sta mentendo a causa del rotolamento di due sei. Quindi il valore p è 1/36, quindi seguendo la normale pratica scientifica quasi-Fisher, un frequentatore respingerebbe l'ipotesi nulla, al livello di significatività del 95% .H 1 H 0 H 0H0H1H0H0

Ma rifiutare l'ipotesi nulla non significa che hai il diritto di accettare l'ipotesi alternativa, quindi la conclusione del frequentatore non è giustificata dall'analisi. I test di ipotesi del frequentista incarnano l'idea del falsificismo (una sorta di), non puoi provare che tutto sia vero, solo confutare. Pertanto, se si desidera affermare , si assume che sia vero e si procede solo se si può dimostrare che è coerente con i dati. Tuttavia, ciò non significa che sia vero, solo che sopravvive al test e continua come ipotesi praticabile almeno fino al test successivo.H 0 H 0 H 1H1H0H0H1

Il bayesiano è anche semplicemente buon senso, osservando che non c'è nulla da perdere facendo la scommessa. Sono sicuro che gli approcci frequentisti, quando si prendono in considerazione i costi falsi positivi e falsi negativi (Neyman-Peason?) Trarrebbero la stessa conclusione di essere la migliore strategia in termini di guadagno a lungo termine.

Riassumendo: sia il frequentista che il bayesiano sono sciatti qui: il frequentatore per seguire ciecamente una ricetta senza considerare il livello appropriato di significatività, i costi falsi positivi / falsi negativi o la fisica del problema (cioè non usare il suo buon senso) . Il bayesiano è sciatto per non aver dichiarato esplicitamente i suoi priori, ma poi usando di nuovo il buon senso i priori che sta usando sono ovviamente corretti (è molto più probabile che la macchina stia mentendo che il sole sia effettivamente esploso), la sciatta è forse scusabile.


4
Rifiutare l'ipotesi nulla significa semplicemente che l'osservazione sarebbe improbabile se H0 fosse vero. Non dovresti "accettare" H1 su questa base poiché in pratica sta dicendo che H1 deve essere vero perché le osservazioni sarebbero improbabili se H0 fosse vero. Tuttavia le osservazioni possono anche essere improbabili in H1 (che il rituale nullo ignora) e H1 può essere meno probabile di H0 a priori (che anche il rituale nullo ignora). Accettare le ipotesi è una pendenza scivolosa verso l'interpretazione di un test del frequentatore come test bayesiano, che di solito porta a fraintendimenti in casi meno elementari.
Dikran Marsupial,

4
Mi sono appena imbattuto nel tuo commento. E ho la stessa domanda che aveva @glassy. Vorrei obiettare al tuo commento sul fatto che se le tue ipotesi coprono l'intero spazio degli eventi, essendo qui {"Il sole è diventato nova", "Il sole non è andato nova"}, ho difficoltà a capire il tuo punto su come rifiutare " Sun è diventata nova "non porta automaticamente a" Sun non è diventata nova ". Dichiarare una dichiarazione falsa implica che la sua negazione deve essere vera. Sarebbe bello se potessi fornire un testo di riferimento affidabile in cui questo punto è chiaramente spiegato, se possibile. Sarei interessato a saperne di più.
significa significato

3
Rifiutare l'ipotesi nulla non significa automaticamente che l'ipotesi nulla sia probabilmente falsa, solo che è ragionevole continuare con l'ipotesi alternativa. Ciò è (in parte) perché il test di ipotesi del frequentista non tiene conto delle probabilità precedenti delle ipotesi. Più fondamentalmente, i metodi frequentisti non possono essere usati per assegnare una probabilità alla verità di alcuna ipotesi specifica, quindi il legame tra "possiamo rifiutare l'ipotesi nulla" e "l'ipotesi nulla è probabilmente falsa" è del tutto soggettivo, per quanto Posso vedere.
Dikran Marsupial,

2
Questo è un po 'il mio punto, la decisione se accettiamo H1 è soggettiva e non è una conseguenza necessaria dell'esito del test "il rifiuto di H0 di solito porta ad accettare H1". Il problema è che le informazioni necessarie per prendere la decisione [P (H0), P (H1), P (Z | H1)] non compaiono nel test. Fondamentalmente alcune di queste informazioni sono parzialmente incluse nel fissare la soglia, ma questo è generalmente incompleto e spesso lasciato non dichiarato e ingiustificato. I priori sono ancora lì nelle prove frequentiste, ugualmente soggettivi, ma lasciati impliciti - il peggio di entrambi i mondi! ; o)
Dikran Marsupial,

3
@Dikran, credo che ci siamo capiti bene e dovremmo smettere di abusare della sezione dei commenti, ma un'ultima osservazione: scelgo soggettivamente di accettare H1 se scelgo soggettivamente di rifiutare [amoeba-reject] H0 in base al mio soggettivamente scelto in base a la mia valutazione soggettiva di esperti di P (H1). Dire che "Non sono costretto ad accettare H1 solo perché posso rifiutare l'ameba H0" non ha alcun senso linguistico. Ma sono d'accordo sul fatto che "Non sono costretto ad accettare H1 solo perché posso rifiutare H0 al livello del 5%". Il mio punto principale: essere in grado di rifiutare H0 al 5% di livello rifiutando . α
amoeba,

25

Perché questo risultato sembra "sbagliato?" Un bayesiano direbbe che il risultato sembra contro-intuitivo perché abbiamo convinzioni "precedenti" su quando il sole esploderà, e le prove fornite da questa macchina non sono sufficienti per eliminare quelle credenze (principalmente a causa della sua incertezza dovuta al lancio della moneta). Ma un frequentatore è in grado di fare una simile valutazione, deve semplicemente farlo nel contesto dei dati, al contrario della convinzione.

La vera fonte del paradosso è il fatto che il test statistico frequentista eseguito non tiene conto di tutti i dati disponibili. Non ci sono problemi con l'analisi nel fumetto, ma il risultato sembra strano perché sappiamo che molto probabilmente il sole non esploderà per molto tempo. Ma COME lo sappiamo? Perché abbiamo fatto misurazioni, osservazioni e simulazioni che possono vincolare quando esploderà il sole. Pertanto, la nostra piena conoscenza dovrebbe tenere conto di tali misurazioni e punti dati.

In un'analisi bayesiana, questo viene fatto usando quelle misurazioni per costruire un precedente (sebbene, la procedura per trasformare le misurazioni in un precedente non sia ben definita: ad un certo punto ci deve essere un precedente iniziale, altrimenti sono le "tartarughe tutte verso il basso "). Quindi, quando il bayesiano usa il suo precedente, sta davvero prendendo in considerazione molte informazioni aggiuntive a cui l'analisi del valore p del frequentista non è a conoscenza.

Quindi, per rimanere su un piano di parità, un'analisi frequentista completa del problema dovrebbe includere gli stessi dati aggiuntivi sull'esplosione del sole usati per costruire il priore bayesiano. Ma, invece di usare i priori, un frequentista semplicemente aumenterebbe la probabilità che sta usando per incorporare quelle altre misurazioni, e il suo valore p verrebbe calcolato usando quella piena probabilità.

LL=L (La macchina ha detto Sì | Il sole è esploso) * (Tutti gli altri dati sul sole | Il sole è esploso)L

Un'analisi frequentista completa mostrerebbe molto probabilmente che la seconda parte della probabilità sarà molto più vincolante e sarà il contributo dominante al calcolo del valore p (perché abbiamo una grande quantità di informazioni sul sole e gli errori su queste informazioni sono piccoli (si spera)).

In pratica, non è necessario uscire e raccogliere tutti i punti dati ottenuti negli ultimi 500 anni per fare un calcolo frequentista, si può approssimarli come un semplice termine di verosimiglianza che codifica l'incertezza sul fatto che il sole sia esploso o meno. Questo diventerà quindi simile al precedente del bayesiano, ma è leggermente diverso filosoficamente perché è una probabilità, il che significa che codifica per alcune misurazioni precedenti (al contrario di un precedente, che codifica per alcune credenze a priori). Questo nuovo termine diventerà parte della probabilità e verrà utilizzato per costruire intervalli di confidenza (o valori p o qualsiasi altra cosa), al contrario del precedente bayesiano, che viene integrato per formare intervalli o posizioni credibili.


1
Questa dovrebbe essere la risposta accettata o più votata.
Amelio Vazquez-Reina,

11

Il problema più grande che vedo è che non esiste una statistica di test derivata. -value (con tutte le critiche che gli statisti bayesiani attribuiscono contro di esso) per un valore di una statistica di test è definito come (supponendo che il valore nullo sia rifiutato per valori maggiori di , come sarebbe un caso con le statistiche , diciamo). Se è necessario prendere una decisione di maggiore importanza, è possibile aumentare il valore critico e aumentare ulteriormente la regione di rifiuto. In effetti, questo è ciò che fanno più correzioni di test come Bonferroni, che ti dice di usare una soglia molto più bassa pert T P r o b [ T t | H 0 ] T χ 2 p 0 , 1 / 36 , 2 / 36 , ...ptTProb[Tt|H0]Tχ2p-valori. Invece, lo statistico frequentista è bloccato qui con i test delle dimensioni sulla griglia di .0,1/36,2/36,

Naturalmente, questo approccio "frequentista" non è scientifico, poiché il risultato sarà difficilmente riproducibile. Una volta che Sun diventa supernova, rimane supernova, quindi il rivelatore dovrebbe continuare a dire "Sì" ancora e ancora. Tuttavia, è improbabile che un funzionamento ripetuto di questa macchina produca nuovamente il risultato "Sì". Ciò è riconosciuto nelle aree che vogliono presentarsi come rigorose e cercare di riprodurre i loro risultati sperimentali ... che, per quanto ho capito, accade con probabilità in qualsiasi punto tra il 5% (pubblicare il documento originale era un errore di tipo I puro) e da qualche parte circa il 30-40% in alcuni campi medici. La gente della meta-analisi può riempirti di numeri migliori, questo è solo il ronzio che mi si presenta di volta in volta attraverso le statistiche.

Un altro problema dal punto di vista del "corretto" frequentatore è che lanciare un dado è il test meno potente, con potenza = livello di significatività (se non inferiore; la potenza del 2,7% per il livello di significatività del 5% non è nulla di cui vantarsi). La teoria di Neyman-Pearson per i test t è angosciata nel dimostrare che si tratta di un UMPT, e molta teoria statistica ad alta fronte (che a malapena capisco, devo ammettere) è dedicata a derivare le curve di potenza e trovare le condizioni quando un dato test è il più potente in una determinata classe. (Crediti: @Dikran Marsupial ha menzionato la questione del potere in uno dei commenti.)

Non so se questo ti preoccupi, ma lo statistico bayesiano viene mostrato qui come il ragazzo che non conosce matematica e ha un problema con il gioco. Un vero statista bayesiano avrebbe postulato il priore, discusso il suo grado di obiettività, ricavato il posteriore e dimostrando quanto hanno imparato dai dati. Niente di tutto ciò è stato fatto, quindi il processo bayesiano è stato semplificato tanto quanto quello frequentista.

Questa situazione dimostra lo screening classico per il problema del cancro (e sono sicuro che i biostatisti possano descriverlo meglio di me). Quando si effettua lo screening per una malattia rara con uno strumento imperfetto, la maggior parte degli aspetti positivi risulta essere falsi positivi. Gli esperti di statistica lo sanno e sanno meglio seguire gli screening economici e sporchi con biopsie più costose e più accurate.


2
Se capisco correttamente il tuo primo paragrafo, stai dicendo che la soglia (0,05 nel fumetto) è troppo alta. Se il fumetto avesse cinque dadi invece di due, accetteresti che la soglia sia sufficientemente bassa? Come decidi comunque la soglia?
ShreevatsaR,

9
Pensavo che lo statistico bayesiano avesse semplicemente tenuto conto del fatto che le probabilità che il sole esplodesse fossero molto, molto più piccole delle possibilità che la macchina mentisse (quindi, non necessariamente un giocatore d'azzardo all'oscuro).
josh

8
Più
precisamente

6
Penso che il punto qui sia che lo statistico frequentista stia seguendo una ricetta senza pensare al vero scopo dell'analisi. Il cosiddetto "bayesiano" non è in realtà un bayesiano, ma solo qualcuno che usa il suo buon senso. Ci sono molti esempi di ricette cieche che seguono nelle riviste scientifiche, motivo per cui il fumetto è divertente.
Dikran Marsupial,

3
La mancanza di statistiche di test non può essere il problema che non credo. Una statistica di prova è solo una funzione dei dati. Quindi la funzione identità, cioè qui il dato stesso, sembrerebbe funzionare, almeno in linea di principio.
conjugateprior

6

Non c'è niente di sbagliato in questo fumetto e la ragione non ha nulla a che fare con le statistiche. È economia. Se il frequentatore ha ragione, la Terra equivarrà a inabitabile entro 48 ore. Il valore di $ 50 sarà effettivamente nullo. Il bayesiano, riconoscendo questo, può fare la scommessa sapendo che il suo vantaggio è di $ 50 nel caso normale, e marginalmente nulla nel caso del sole esploso.


Questo "ha qualcosa a che fare con le statistiche" poiché le statistiche bayesiane lo modellano esplicitamente come "minimizzare una funzione di perdita";)
Fabio Beltramini,

5

Ora che il CERN ha deciso che i neutrini non sono più veloci della luce - il fronte di scossa di radiazione elettromagnetica colpirebbe la terra prima che si notasse il cambio di neutrino. Ciò avrebbe come minimo (a brevissimo termine) effetti aurorali spettacolari. Quindi il fatto che sia buio non impedirebbe di illuminare i cieli; la luna brilla eccessivamente (vedi "Inconstant Moon" di Larry Niven) e lampi spettacolari mentre i satelliti artificiali sono stati vaporizzati e auto-bruciati.

Tutto sommato - forse il test sbagliato? (E anche se potrebbe esserci stato prima, non ci sarebbe stato tempo sufficiente per una determinazione realistica del posteriore.


1
Una ragione in più per respingere l'ipotesi che il sole sia esploso, quindi. :-)
ShreevatsaR

Quindi questo è ciò che si intende alla fine dell'articolo quando gli autori dicono: "sono necessari studi di conferma"?
DWin

In realtà, casualmente rivisitando questo, la chiara inferenza è nel titolo. La macchina rileva se il sole è diventato nova. Non c'è possibilità di errore nel rilevamento. Il bit di neutrino è irrilevante. Detto questo, le statistiche sono tali che la macchina risponderà "no", "no", "no" ... con una probabilità 1/36 di essere una dichiarazione falsa (sì) fino a quando un evento una tantum che termina la statistica si verifica un processo - ciò avrà anche una probabilità 1/36 di essere segnalato erroneamente (no), se la macchina viene interrogata durante l'intervallo di 8 minuti dispari, ci vuole per essere evidente sulla terra.
SimonN,

4

Sono d'accordo con @GeorgeLewis sul fatto che potrebbe essere prematuro concludere che l'approccio frequentista sia sbagliato - eseguiamo di nuovo il rivelatore di neutrini più volte per raccogliere più dati. Non c'è bisogno di scherzare con i priori.


2

Un punto più semplice che può essere perso tra tutte le risposte dettagliate qui è che il frequentista è raffigurato tracciando le sue conclusioni sulla base di un singolo campione. In pratica non lo faresti mai.

Raggiungere una conclusione valida richiede una dimensione del campione statisticamente significativa (o, in altre parole, la scienza deve essere ripetibile). Quindi, in pratica, il frequentista eseguiva la macchina più volte e poi giungeva a una conclusione sui dati risultanti.

Presumibilmente ciò implicherebbe porre alla macchina la stessa domanda più volte. E presumibilmente se la macchina sbaglia solo 1 ogni 36 volte emergerà un modello chiaro. E da quel modello (piuttosto che da una sola lettura) il frequentatore trarrà una conclusione (abbastanza accurata, direi) riguardo al fatto che il sole sia esploso o meno.


4
Cosa intendi per "dimensione del campione statisticamente significativa"?
Momo,

@Momo - Più di un singolo campione, questo è certo. Non è valido osservare un risultato improbabile e quindi trarre la conclusione che l'improbabile è accaduto senza prima ripetere l'osservazione per assicurarsi che non fosse un colpo di fortuna. Se si desidera un numero esatto che rappresenta una dimensione del campione statisticamente significativa o un algoritmo per determinare un numero esatto, probabilmente uno statistico può fornirne uno; ma non sono uno statistico.
aroth

3
Non penso che ci sia un problema particolare nell'avere una dimensione del campione di 1 è il problema, il problema è che il test non ha potere statistico (cioè il test non rifiuterà mai l'ipotesi nulla quando è falso). Tuttavia, questo rivela un problema con il "rituale nullo" che viene chiarito nell'articolo, il che ignora il problema del potere statistico (e di cosa sia effettivamente H1, o delle informazioni precedenti rilevanti per il problema).
Dikran Marsupial,

1
@Dikran Questa è una delle migliori risposte possibili! Il problema con il "frequentista" nel cartone animato è che un particolare rito statistico è stato seguito senza prima condurre la valutazione necessaria delle proprietà del test. (Si potrebbe anche estendere la tua analisi considerando quale dovrebbe essere una funzione di perdita rilevante per questa decisione.) In quanto tale, il fumetto infastidisce ordinatamente tutte le persone che impiegano procedure statistiche senza capirle o controllare le loro ipotesi.
whuber

2

La risposta alla tua domanda: "applica correttamente la metodologia frequentista?" no, non applica esattamente l'approccio frequentista. Il valore p per questo problema non è esattamente 1/36.

Dobbiamo innanzitutto notare che le ipotesi coinvolte sono

H0: Il sole non è esploso,

H1: Il sole è esploso.

Poi,

p-value = P ("la macchina restituisce yes" | il Sole non è esploso).

Per calcolare questa probabilità, dobbiamo notare che "la macchina restituisce sì" equivale a "il rivelatore di neutrini misura l'esplosione del Sole E dice il vero risultato OPPURE il rivelatore di neutrini non misura l'esplosione del Sole E ci mente".

Supponendo che il lancio dei dadi sia indipendente dalla misurazione del rivelatore di neutrini, possiamo calcolare il valore p definendo:

p0 = P ("il rivelatore di neutrini misura l'esplosione del Sole" | il Sole non è esploso),

Quindi, il valore p è

valore p = p0 x 35/36 + (1-p0) x 1/36 = (1/36) x (1+ 34 x p0).

Per questo problema, il valore p è un numero compreso tra 1/36 e 35/36. Il valore p è uguale a 1/36 se e solo se p0 = 0. Cioè, un'ipotesi nascosta in questo cartone animato è che la macchina rivelatrice non misurerà mai l'esplosione del Sole se il Sole non è esploso.

Inoltre, è necessario inserire molte più informazioni sulla probabilità di prove esterne di un'esplosione di anova in corso.

Ti auguro il meglio.


1

Non vedo alcun problema con l'approccio del frequentatore. Se l'ipotesi nulla viene respinta, il valore p è la probabilità di un errore di tipo 1. Un errore di tipo 1 sta rifiutando una vera ipotesi nulla. In questo caso abbiamo un valore p di 0,028. Ciò significa che tra tutti i test di ipotesi con questo valore p mai condotto, circa 3 su cento respingeranno una vera ipotesi nulla. Per costruzione, questo sarebbe uno di quei casi. I frequentatori accettano che a volte rifiuteranno la vera ipotesi nulla o manterranno false ipotesi nulla (errori di tipo 2), ma non hanno mai affermato diversamente. Inoltre, quantificano con precisione la frequenza delle loro inferenze errate nel lungo periodo.

Forse, un modo meno confuso di guardare a questo risultato è quello di scambiare i ruoli delle ipotesi. Poiché le due ipotesi sono semplici, questo è facile da fare. Se il valore nullo è che il sole è diventato nova, il valore p è 35/36 = 0,972. Ciò significa che questa non è una prova contro l'ipotesi che il sole sia diventato nova, quindi non possiamo rifiutarlo sulla base di questo risultato. Questo sembra più ragionevole. Se stai pensando. Perché qualcuno dovrebbe presumere che il sole sia diventato nova? Vorrei chiederti. Perché qualcuno dovrebbe fare un simile esperimento se il solo pensiero dell'esplosione solare sembra ridicolo?

Penso che questo dimostri solo che si deve valutare in anticipo l'utilità di un esperimento. Questo esperimento, ad esempio, sarebbe completamente inutile perché mette alla prova qualcosa che già conosciamo semplicemente guardando verso il cielo (che sono sicuro produce un valore p che è effettivamente zero). Progettare un buon esperimento è un requisito per produrre una buona scienza. Se il tuo esperimento è mal progettato, non importa quale strumento di inferenza statistica usi, è improbabile che i tuoi risultati siano utili.


Certamente, ma il bayesiano può ancora dedurre una conclusione ragionevole con i dati forniti / i risultati dell'esperimento . A volte non è possibile ripetere un esperimento o progettarlo nel modo desiderato.
Amelio Vazquez-Reina,

Questo è un punto giusto, l'inferenza bayesiana può facilmente incorporare l'esperienza precedente che rende più difficile per i risultati straordinari avere un peso statistico (ci protegge dai colpi di fortuna statistici). Tuttavia, questo è anche un esperimento inutile nel quadro bayesiano. Il precedente è così fortemente a favore di una conclusione che nessun risultato in questo esperimento può cambiarlo. Se il priore è così forte. Perché eseguire un esperimento senza possibilità di modificarlo? Quando si considerano i priori deboli (che potrebbero essere modificati dai dati), penso che i metodi bayesiano e frequentista di solito producano risultati "comparabili".
Jose Garmilla,

0

Come integrare la "conoscenza precedente" sulla stabilità del sole nella metodologia frequentista?

Argomento molto interessante.

Ecco alcuni pensieri, non un'analisi perfetta ...

L'uso dell'approccio bayesiano con un precedente non informativo in genere fornisce un'inferenza statistica paragonabile a quella frequentista.

Perché il bayesiano crede fermamente che il sole non sia esploso? Perché sa come tutti che il sole non è mai esploso dal suo inizio.

Possiamo vedere su alcuni semplici modelli statistici con priori coniugati che l' uso di una distribuzione precedente equivale a usare la distribuzione posteriore derivata da esperimenti preliminari e preliminari non infettivi.

La frase sopra suggerisce che il frequentista dovrebbe concludere come bayesiano includendo i risultati degli esperimenti preliminari nel suo modello. E questo è ciò che fa effettivamente il bayesiano : il suo precedente deriva dalla sua conoscenza degli esperimenti preliminari!

Nxiixiθxixi=1i=1,,N

N+1xiy={Yes}Pr(xN+1=0)θ x 1 , , x N y 1 N y = { } θ θθθx1,,xNy1Ny={Yes}θ. E il bayesiano intende riflettere queste informazioni attraverso la sua precedente distribuzione su .θ

Da questo punto di vista non vedo come riformulare la domanda in termini di verifica delle ipotesi. Prendere non ha senso perché è un possibile problema dell'esperimento nella mia interpretazione, non un'ipotesi vera / falsa. Forse questo è l'errore del frequentista?H0={the sun has not exploded}


Il passaggio "... sa come tutti che il sole non sia mai esploso dal suo inizio" riporta alla mente una storia di una recente vacanza americana in cui vengono consumati milioni di tacchini ( Meleagris gallopavo ). Col passare del tempo, ogni giorno un tacchino intelligente "sa come tutti" che verrà nutrita e curata, fino a quel fatidico (e del tutto inaspettato - per lei) giorno a metà novembre! Allo stesso modo, la nostra fiducia nella stabilità del sole dovrebbe essere bassa se tutto ciò su cui dovevamo fare affidamento fosse la storia relativamente breve dell'osservazione umana di esso.
whuber

@whuber Avrei preferito inviarti questo messaggio privatamente. C'è una connessione tra il tuo commento e l'argomento della discussione? Non so se sono io a farmi delle idee, ma sono diverse volte che sento che commenti le mie risposte principalmente per dire qualcosa contro le mie risposte. L'esercizio proposto dall'OP è l'interpretazione di un cartone animato e sento che tu critichi la mia risposta come se stessi parlando di un vero problema. Di recente non ho apprezzato e non ho ancora capito perché hai evocato un probabile "intento" dietro le mie risposte.
Stéphane Laurent,

Non c'erano critiche, implicite o intenzionali: a volte un commento è davvero solo ... un commento. Ha cercato di evidenziare (in un modo inteso come divertente) domande importanti accennate ma non affrontate nella risposta. Mi dispiace che tu lo percepisca come personale o come un attacco. A proposito, questa è una vera domanda: si chiede come integrare la "conoscenza precedente" ... nella metodologia frequentista? Questa domanda evoca le critiche di Hume sull'inferenza induttiva e affronta i problemi della filosofia della scienza e le basi stesse della statistica. Vale la pena di pensarci bene!
whuber

Potrebbe anche valere la pena sottolineare che una parte sostanziale della tua reputazione è dovuta ai miei voti per le tue risposte, che offro come prova materiale che non esiste un comportamento sistematico da parte mia contro di te.
whuber

2
No, ho capito il tuo commento. La traduzione francese di Google del tuo commento è già strana, ma unendo le mie competenze in inglese e le strane traduzioni di Google, sono in grado di ottenere una traduzione corretta. Mi rilasserò di più il prossimo mese, probabilmente.
Stéphane Laurent,

0

Questo è ovviamente un test di livello 0,05 per frequentisti - l'ipotesi nulla viene respinta meno del 5% delle volte sotto l'ipotesi nulla e anche il potere sotto l'alternativa è grande.

D'altra parte, le informazioni precedenti ci dicono che il sole che sta superando in un determinato momento è piuttosto improbabile, ma che è più probabile che si trovi una bugia per caso.

In conclusione: non c'è davvero nulla di sbagliato nel fumetto e dimostra che testare ipotesi non plausibili porta a un alto tasso di scoperte false. Inoltre, probabilmente vuoi prendere in considerazione le informazioni preliminari nella tua valutazione delle scommesse offerte - ecco perché un posteriore bayesiano in combinazione con l'analisi delle decisioni è così popolare.


-2

A mio avviso, un'analisi frequentista più corretta sarebbe la seguente: H0: Il sole è esploso e la macchina sta dicendo la verità. H1: Il sole non è esploso e la macchina sta mentendo.

Il valore p qui è = P (sole esploso). p (la macchina sta dicendo la verità) = 0.97. P (sole esploso)

Lo statistico non può concludere nulla senza conoscere la natura della seconda probabilità.

Sebbene sappiamo che P (sole esploso) è 0, perché il sole come le stelle non esplode in supernovae.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.