Diciamo che ho un amico (chiamiamolo "George") che dice che può controllare il tiro di dadi usando la sua mente (cioè, rendere i dadi più probabilità di cadere su un numero specifico a cui sta pensando).
Come posso progettare un test scientificamente rigoroso per determinare se può effettivamente farlo? (Non credo davvero che possa, ovviamente, ma voglio che accetti i dettagli di un test, in stile Randi incredibile, prima che inizi il test.) Voglio ridurre le (molto probabilmente) scuse post test che verrà fuori.
Ecco quello che ho finora:
Determinare la tecnica fisica del lancio dei dadi (quali dadi, tazza dell'agitatore, superficie di atterraggio, ecc.)
Definire una "sessione di prova", composta da X tiri di dadi. Questo deve essere abbastanza piccolo da fare in una seduta, ma abbastanza grande da determinare (dopo l'analisi) entro il 95% -99% di fiducia se i dadi sono caduti equi o hanno favorito una parte
Esegui sessioni Y sui dadi scelti (senza alcuna influenza da parte di George), come "controllo" per assicurarti che i dadi mostrino risultati "equi" da soli
Esegui sessioni Z con George. Prima di ognuno, tira un dado separato per determinare su quale numero George "si concentrerà" durante l'intera sessione.
Compilare e analizzare i risultati.
George trova delle scuse per la sua triste performance.
Quindi le mie domande per te:
Qualche difetto o problema con la mia metodologia generale? Qualcosa a cui George probabilmente obietterebbe?
Dovrei usare un D6? O una D20? Importa? Un dado con più facce richiederebbe più tiri per produrre risultati altrettanto sicuri? O il contrario? Preferirei meno rotoli che più, a causa di considerazioni pratiche :)
Quali sono i valori ragionevoli per X , Y e Z ? Non sono del tutto indipendenti; se il mio valore scelto di X consente solo il 95% di confidenza per una singola sessione, allora 1 su 20 sessioni potrebbe "fallire", anche senza l'influenza di George
Come definisco "successo" o "fallimento" per una singola sessione? (Ho trovato questa domanda che passa attraverso i dettagli di un test chi-quadrato, quindi penso che sia la mia metodologia di valutazione, ma quali sono le soglie di confidenza ragionevoli?)
Come definire "successo" o "fallimento" per il test generale? George potrebbe "vincere" una singola sessione per puro caso, ma quante delle sessioni Z dovrebbe passare per superare l'intero test?
Probabilmente analizzerò questi risultati in un foglio di calcolo di MS Excel, se questo fa la differenza.