Articolo sull'uso improprio del metodo statistico a New York


20

Mi riferisco a questo articolo: http://www.nytimes.com/2011/01/11/science/11esp.html

Considera il seguente esperimento. Supponiamo che ci fosse motivo di credere che una moneta fosse leggermente ponderata verso le teste. In un test, la moneta esce testa 527 volte su 1.000.

Questa è una prova significativa che la moneta è ponderata?

L'analisi classica dice di sì. Con una moneta giusta, la possibilità di ottenere 527 o più teste in 1.000 lanci è inferiore a 1 su 20, o 5 percento, il limite convenzionale. Per dirla in altro modo: l'esperimento trova prove di una moneta ponderata "con una sicurezza del 95%".

Eppure molti statistici non lo acquistano. Uno su 20 è la probabilità di ottenere un numero qualsiasi di teste superiore a 526 in 1.000 tiri. Cioè, è la somma della probabilità di capovolgere 527, la probabilità di capovolgere 528, 529 e così via.

Ma l'esperimento non ha trovato tutti i numeri in quell'intervallo; ha trovato solo uno - 527. È quindi più preciso, dicono questi esperti, calcolare la probabilità di ottenere quel numero - 527 - se la moneta è ponderata, e confrontarla con la probabilità di ottenere lo stesso numero se la moneta è giusto.

Gli statistici possono dimostrare che questo rapporto non può essere superiore a circa 4 a 1, secondo Paul Speckman, uno statistico che, con Jeff Rouder, uno psicologo, ha fornito l'esempio.

Prima domanda: questa è una novità per me. Qualcuno ha un riferimento dove posso trovare il calcolo esatto e / o PUOI aiutarmi dandomi tu stesso il calcolo esatto e / o puoi indicarmi del materiale in cui posso trovare esempi simili?

Bayes ha escogitato un modo per aggiornare la probabilità di un'ipotesi quando arrivano nuove prove.

Quindi, nel valutare la forza di un dato risultato, l'analisi bayesiana (pronunciata BAYZ-ee-un) incorpora probabilità note, se disponibili, al di fuori dello studio.

Potrebbe essere chiamato l'effetto "Sì, giusto". Se uno studio rileva che i kumquat riducono il rischio di malattie cardiache del 90 percento, che un trattamento cura la dipendenza da alcol in una settimana, che i genitori sensibili hanno il doppio delle probabilità di dare alla luce una ragazza rispetto a un ragazzo, la risposta bayesiana corrisponde a quella di lo scettico nativo: Sì, giusto. I risultati dello studio sono valutati rispetto a ciò che è osservabile nel mondo.

In almeno un'area della medicina - test diagnostici di screening - i ricercatori utilizzano già le probabilità note per valutare nuovi risultati. Ad esempio, un nuovo test di rilevazione della bugia può essere accurato al 90 percento, segnalando correttamente 9 bugiardi su 10. Ma se viene dato a una popolazione di 100 persone già note per includere 10 bugiardi, il test è molto meno impressionante.

Identifica correttamente 9 dei 10 bugiardi e ne manca uno; ma identifica erroneamente 9 degli altri 90 come bugiardo. Dividendo i cosiddetti veri positivi (9) per il numero totale di persone contrassegnate dal test (18) si ottiene un tasso di precisione del 50 percento. I "falsi positivi" e i "falsi negativi" dipendono dai tassi noti nella popolazione.

Seconda domanda: come giudichi esattamente se una nuova scoperta è "reale" o no con questo metodo? E: non è arbitrario come la barriera del 5% a causa dell'uso di una probabilità preimpostata precedente?


3
Per le monete giuste e ingiuste questa è una lettura utile: stat.columbia.edu/~gelman/research/published/diceRev2.pdf
mpiktas

Risposte:


31

Risponderò in dettaglio alla prima domanda.

Con una moneta giusta, la possibilità di ottenere 527 o più teste in 1.000 lanci è inferiore a 1 su 20, o 5 percento, il limite convenzionale.

Per una moneta giusta il numero di teste in 1000 prove segue la distribuzione binomiale con numero di prove e probabilità . La probabilità di ottenere più di 527 teste è quindin=1000p=1/2

P(B(1000,1/2)>=527)

Questo può essere calcolato con qualsiasi pacchetto software statistico. R ci da

> pbinom(526,1000,1/2,lower.tail=FALSE)
   0.04684365

Quindi la probabilità che con una moneta equa otterremo più di 526 teste è di circa 0,047, che è vicino al taglio del 5% menzionato nell'articolo.

La seguente dichiarazione

Per dirla in altro modo: l'esperimento trova prove di una moneta ponderata "con una sicurezza del 95%".

è discutibile. Sarei riluttante a dirlo, dal momento che la fiducia del 95% può essere interpretata in diversi modi.

Quindi passiamo a

Ma l'esperimento non ha trovato tutti i numeri in quell'intervallo; ha trovato solo uno - 527. È quindi più preciso, dicono questi esperti, calcolare la probabilità di ottenere quel numero - 527 - se la moneta è ponderata, e confrontarla con la probabilità di ottenere lo stesso numero se la moneta è giusto.

Qui confrontiamo due eventi - moneta corretta e - moneta ponderata. Sostituendo le formule per le probabilità di questi eventi e notando che il coefficiente binomiale annulla, otteniamoB(1000,1/2)=527B(1000,p)=527

P(B(1000,p)=527)P(B(1000,1/2)=527)=p527(1p)473(1/2)1000.

Questa è una funzione di , quindi possiamo trovarne minimi o massimi. Dall'articolo possiamo dedurre che abbiamo bisogno dei massimi:p

Gli statistici possono dimostrare che questo rapporto non può essere superiore a circa 4 a 1, secondo Paul Speckman, uno statistico che, con Jeff Rouder, uno psicologo, ha fornito l'esempio.

Per semplificare la massimizzazione, prendi il logaritmo del rapporto, calcola la derivata rispetto a ed equiparala a zero. La soluzione saràp

p=5271000.

Possiamo verificare che sia davvero un massimo usando ad esempio il secondo test derivativo . Sostituendolo alla formula che otteniamo

(527/1000)527(473/1000)473(1/2)10004.3

Quindi il rapporto è 4,3 a 1, che concorda con l'articolo.


"Ora massimizza questa quantità rispetto a p": penso che intendi minimizzare.
Simon Byrne,

@mpiktas (+1) Risposta di Nizza (aggiornata).
chl

Penso che questo esempio ti mostri esattamente cos'è un intervallo di confidenza. Trovo più semplice interpretare un elemento della configurazione come UN'osservazione da una variabile casuale distribuita da Bernouli con un parametro di probabilità pari al livello di confidenza. Per me ha senso usare gli EC se esegui l'esperimento ripetutamente. Un altro problema è che qual è l'ipotesi alternativa? è p = 7/10, p> 0,5, p = 1050/2000? p = 527/1000? Un altro problema è cosa intendiamo con p = ? è ESATTAMENTE o è dove è un piccolo numero. 112 p(112ϵp(12±ϵ)ϵ
Probislogic, il

@Simon, perché la correzione è minimizzare? Il valore di P trovato non massimizza il rapporto?

@statnovice: la versione originale della risposta aveva cambiato numeratore e denominatore.
Simon Byrne,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.