Argomento statistico per cui 10.000 teste da 20.000 lanci suggeriscono dati non validi


11

Supponiamo di lanciare ripetutamente una moneta giusta e sappiamo che il numero di teste e code dovrebbe essere approssimativamente uguale. Quando vediamo un risultato come 10 teste e 10 code per un totale di 20 lanci, crediamo ai risultati e siamo propensi a credere che la moneta sia giusta.

Bene, quando vedi un risultato come 10000 teste e 10000 code per un totale di 20000 lanci, in realtà metterei in dubbio la validità del risultato (lo sperimentatore ha falsificato i dati), poiché so che è più improbabile di, diciamo un risultato di 10093 teste e 9907 code.

Qual è l'argomento statistico alla base del mio intuito?

Risposte:


21

Supponendo che una moneta giusta il risultato di 10000 teste e 10000 code sia in realtà più probabile di un risultato di 10093 teste e 9907 code.

Tuttavia, quando dici che è improbabile che un vero sperimentatore ottenga un uguale numero di teste e code, stai invocando implicitamente il teorema di Bayes. La tua precedente convinzione su un vero esperimento è che Prob (No of heads = 10000 in 20000 tiri | Dato che lo sperimentatore non sta fingendo) è vicino a 0. Quindi, quando vedi un risultato effettivo che il 'No of heads = 10000' il tuo posteriormente su Prob (lo sperimentatore non sta fingendo | il risultato osservato di 10000 teste) è anche vicino a 0. Quindi, si conclude che lo sperimentatore sta fingendo i dati.


Molto ben spiegato! Che meraviglioso esempio dell'approccio al teorema di Bayes.
Tal Galili,

1
@Srikant: quel precedente non può essere definito formalmente. In ogni caso, Prob (No of heads = X | sperimentatore non è falso) è sempre intorno allo zero quando N = 20000, indipendentemente dal valore di X e indipendentemente dal tuo precedente. Quindi anche il tuo posteriore per qualsiasi numero è sempre vicino a 0. Non vedo cosa abbia a che fare con il teorema di Bayes.
Joris Meys,

Tutto questo da un ragazzo che è stato nascosto cercando di dimostrare l'esistenza di Dio. Elegante, davvero.
Brandon Bertelsen,

1
Mettendo questo in una prospettiva più generale, il punto, con cui sono d'accordo, è che il teorema di Bayes è al lavoro qui. Nello specifico ci sono probabilità alternative (corrispondenti a diversi processi generativi) per imbrogliare e sperimentatori onesti. Stabilire il tradimento è un'inferenza posteriore rispetto al processo di imbroglio intuitivo e quindi tristemente specificato.
conjugateprior,

1
@Srikant @whuber: i combinatori ... hai ragione. Ho iniziato da una probabilità uniforme, che in questo caso è fuori dal comune. Mio cattivo
Joris Meys il

12

Mi piace la spiegazione di Srikant e penso che l'idea bayesiana sia probabilmente il modo migliore per affrontare un problema come questo. Ma ecco un altro modo di vederlo senza Bayes: (in R)

dbinom(10, size = 20, prob = 0.5)/dbinom(10000, 20000, 0.5)

che è circa 31.2 sul mio sistema. In altre parole, è oltre 30 volte più probabile vedere 10 su 20 rispetto a 10.000 su 20.000, anche con una moneta equa in entrambi i casi. Questo rapporto aumenta senza limiti all'aumentare della dimensione del campione.

Si tratta di una sorta di approccio basato sul rapporto di verosimiglianza, ma ancora una volta, nel mio istinto, sembra che un giudizio bayesiano sia più che altro.


Perché il rapporto? Perché non dichiarare semplicemente che la probabilità di quell'estrazione esatta è estremamente bassa?
Andy W,

5
L'affermazione che una particolare probabilità è bassa dal contesto non è convincente. La probabilità che io sia esattamente alto quanto la mia altezza (qualunque essa sia) è zero. E, sì, è problematico persino definire l'altezza con precisione infinita, yada, yada, yada ... Il mio punto è che il vortice dell'esistenza si agita con eventi di probabilità infinitesimale che accadono continuamente! 10.000 su 20.000 - fuori contesto - non mi sorprendono affatto. Indipendentemente da quale possa essere la sua probabilità numerica.

9

Un argomento bayesiano soggettivista è praticamente l'unico modo (da un punto di vista statistico) di comprendere l' intuizione , che è - propriamente parlando - oggetto di un'indagine psicologica , non statistica. Tuttavia, è palesemente ingiusto - e quindi non valido - utilizzare un approccio bayesiano per sostenere che un investigatore ha simulato i dati. La logica di questo è perfettamente circolare: si riduce a dire "sulla base delle mie precedenti convinzioni sul risultato, trovo il tuo risultato incredibile e quindi devi aver tradito". Un simile argomento illogico egoistico ovviamente non si reggerebbe in un'aula di tribunale o in un processo di revisione tra pari.

Invece, potremmo trarre un suggerimento dalla critica di Ronald Fisher agli esperimenti di Mendel e condurre un test formale di ipotesi. Ovviamente non è valido testare un'ipotesi post hoc basata sul risultato. Ma gli esperimenti devono essere replicati per essere creduti: questo è un principio del metodo scientifico. Quindi, avendo visto un risultato che riteniamo possa essere stato falsificato, possiamo formulare un'ipotesi appropriata per testare risultati futuri (o aggiuntivi). In questo caso la regione critica comprenderebbe una serie di risultati estremamente vicini alle aspettative. Ad esempio, un test inα= Livello del 5% considererebbe sospetto qualsiasi risultato tra 9.996 e 10.004, perché (a) questa raccolta è vicina ai nostri ipotizzati risultati "falsi" e (b) sotto l'ipotesi nulla di non falsificare (innocente fino a prova contraria in tribunale!) , un risultato in questo intervallo ha solo una probabilità del 5% (in realtà 5.07426%). Inoltre, possiamo mettere questo approccio apparentemente ad hoc in un contesto chi-quadrato (a la Fisher) semplicemente quadrando la deviazione tra la proporzione osservata e la proporzione attesa, quindi invocando il lemma di Neyman-Pearson in un test a una coda al coda bassa e applicazione dell'approssimazione normale alla distribuzione binomiale .

Sebbene tale test non possa dimostrare la falsità, può essere applicato a rapporti futuri di tale sperimentatore per valutare la credibilità delle loro affermazioni, senza fare ipotesi spiacevoli e insopportabili basate solo sulla tua intuizione. Questo è molto più giusto e rigoroso che invocare un argomento bayesiano per implicare qualcuno che potrebbe essere perfettamente innocente e che si è rivelato così sfortunato da ottenere un bellissimo risultato sperimentale!


5

Penso che il tuo intuito sia difettoso. Sembra che tu stia confrontando implicitamente un singolo risultato "molto speciale" (esattamente 10000 teste) con un insieme di molti risultati (tutti i numeri "non speciali" di teste vicini a 10000). Tuttavia, la definizione di "speciale" è una scelta arbitraria basata sulla nostra psicologia. Che ne dici di binario 10000000000000 (decimale 8192) o Hex ABC (decimale 2748) - sarebbe anche sospettosamente speciale? Come ha commentato Joris Meys, l'argomento di Bayes sarebbe essenzialmente lo stesso per ogni singolo numero di teste, il che implica che ogni risultato sarebbe sospetto.

Per espandere un po 'l'argomento: vuoi testare un'ipotesi ("lo sperimentatore sta fingendo"), e quindi scegli una statistica di test (numero di teste). Ora, questa statistica di prova è adatta a dirti qualcosa sulla tua ipotesi? Secondo me, la statistica del test prescelta non è informativa (non una funzione di un parametro specificato come valore fisso nell'ipotesi). Questo torna alla domanda che cosa intendi per "barare". Se ciò significa che lo sperimentatore controlla la moneta a piacimento, ciò non si riflette nella statistica del test. Penso che sia necessario essere più precisi per trovare un indicatore quantificabile, e quindi rendere la domanda suscettibile di un test statistico.


+1, ma non sono convinto. La cosa speciale di 10.000 è che è esattamente uguale al numero previsto di teste nell'ipotesi che la moneta sia giusta. Questo fatto è indipendente da qualsiasi psicologia o sistema di rappresentazione numerica. L'analisi in questa risposta potrebbe fornire una visione d'insieme di una situazione in cui, per esempio, sono state lanciate 20.005 monete e sono state notate 10.000 teste (e quindi 10.005 code) e la "intuizione" di qualcuno ha suggerito che la falsificazione ha avuto luogo.
whuber

Sono pienamente d'accordo sul fatto che - come indicato nella risposta - tutto dipende dalla definizione a priori dell'ipotesi: se si definisce in anticipo che "falsificando l'esperimento" si intende "ottenere un risultato per numero di teste che è vicino al valore atteso ", quindi questa è una base per un test statistico con" numero di teste "come statistica del test. Tuttavia, senza un tale chiarimento a priori, il significato di "falsificazione" e "valore speciale per il numero di teste" rimane torbido e non è chiaro cosa abbiano a che fare l'uno con l'altro.
Caracal,

4

La conclusione che trarrai dipenderà MOLTO dal precedente che scegli per la probabilità di barare e la probabilità precedente che, dato che la pinna stia mentendo, siano riportate x teste.

Mettere la maggior parte della massa su P (10000 teste riportate | mentendo) è un po 'controproducente secondo me. A meno che il giornalista non sia ingenuo, non riesco a immaginare nessuno che riferisca quel tipo di dati falsificati (in gran parte per i motivi che hai citato nel post originale; è troppo sospetto per la maggior parte delle persone.) Se la moneta è davvero ingiusta e la pinna dovesse segnalare dati falsi, quindi penso che un precedente più ragionevole (e molto approssimativo) dei risultati riportati potrebbe essere una discreta uniforme prima P (X teste riportate | bugiardo) = 1/201 per gli interi {9900, ..., 10100} e P (x teste riportate | bugiardo) = 0 per tutte le altre x. Supponiamo che pensi che la probabilità precedente di mentire sia 0,5. Quindi alcune probabilità posteriori sono:

P (mentire | 9900 capi riportati) = P (mentire | 10100 capi riportati) = 0,70;

P (mentire | 9950 teste riportate) = P (mentire | 10050 teste riportate) = 0,54;

P (mentire | 10000 teste riportate) = 0,47.

Il numero più ragionevole di teste segnalate da una moneta equa provocherà sospetti. Solo per mostrare quanto sono sensibili le probabilità posteriori ai tuoi priori, se la probabilità precedente di barare è ridotta a 0,10, allora le probabilità posteriori diventano:

P (mentire | 9900 capi riportati) = P (mentire | 10100 capi riportati) = 0,21;

P (mentire | 9950 teste riportate) = P (mentire | 10050 teste riportate) = 0.11;

P (mentire | 10000 teste riportate) = 0,09.

Quindi penso che l'originale (e la risposta molto apprezzata) potrebbe essere ampliato un po '; non si dovrebbe in alcun modo concludere che i dati siano falsificati senza considerare attentamente le informazioni preliminari. Inoltre, solo a pensarci intuitivamente, sembra che le probabilità posteriori di mentire siano probabilmente influenzate più dalla probabilità precedente di mentire piuttosto che dalla precedente distribuzione delle teste segnalate dato che la pinna sta mentendo (eccetto per i priori che mettono tutto la loro massa su un piccolo numero di teste segnalate dato che la pinna sta mentendo, come nel mio esempio.)


Penso che questa sia un'ottima risposta, ma non sono d'accordo con il tuo secondo paragrafo. Non credo che la probabilità condizionale originale di Srikant sia controintuitiva, e semplicemente perché è una domanda difficile a cui rispondere non è un argomento contro di essa. Inoltre, non credo che la tua probabilità uniforme di trovarsi tra 9900 e 10100 abbia alcun senso, sebbene sia utile a scopo dimostrativo.
Andy W,

2

Per la spiegazione bayesiana, è necessaria una distribuzione di probabilità precedente sui risultati riportati da una pinna per menzogne, nonché una probabilità precedente di mentire. Quando vedi un valore che è molto più probabile sotto la distribuzione della menzogna rispetto a quella del capovolgere casuale, ciò aumenta la probabilità posteriore di mentire.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.