Il problema più grande che vedo è che non esiste una statistica di test derivata. -value (con tutte le critiche che gli statisti bayesiani attribuiscono contro di esso) per un valore di una statistica di test è definito come (supponendo che il valore nullo sia rifiutato per valori maggiori di , come sarebbe un caso con le statistiche , diciamo). Se è necessario prendere una decisione di maggiore importanza, è possibile aumentare il valore critico e aumentare ulteriormente la regione di rifiuto. In effetti, questo è ciò che fanno più correzioni di test come Bonferroni, che ti dice di usare una soglia molto più bassa pert T P r o b [ T ≥ t | H 0 ] T χ 2 p 0 , 1 / 36 , 2 / 36 , ...ptTProb[T≥t|H0]Tχ2p-valori. Invece, lo statistico frequentista è bloccato qui con i test delle dimensioni sulla griglia di .0,1/36,2/36,…
Naturalmente, questo approccio "frequentista" non è scientifico, poiché il risultato sarà difficilmente riproducibile. Una volta che Sun diventa supernova, rimane supernova, quindi il rivelatore dovrebbe continuare a dire "Sì" ancora e ancora. Tuttavia, è improbabile che un funzionamento ripetuto di questa macchina produca nuovamente il risultato "Sì". Ciò è riconosciuto nelle aree che vogliono presentarsi come rigorose e cercare di riprodurre i loro risultati sperimentali ... che, per quanto ho capito, accade con probabilità in qualsiasi punto tra il 5% (pubblicare il documento originale era un errore di tipo I puro) e da qualche parte circa il 30-40% in alcuni campi medici. La gente della meta-analisi può riempirti di numeri migliori, questo è solo il ronzio che mi si presenta di volta in volta attraverso le statistiche.
Un altro problema dal punto di vista del "corretto" frequentatore è che lanciare un dado è il test meno potente, con potenza = livello di significatività (se non inferiore; la potenza del 2,7% per il livello di significatività del 5% non è nulla di cui vantarsi). La teoria di Neyman-Pearson per i test t è angosciata nel dimostrare che si tratta di un UMPT, e molta teoria statistica ad alta fronte (che a malapena capisco, devo ammettere) è dedicata a derivare le curve di potenza e trovare le condizioni quando un dato test è il più potente in una determinata classe. (Crediti: @Dikran Marsupial ha menzionato la questione del potere in uno dei commenti.)
Non so se questo ti preoccupi, ma lo statistico bayesiano viene mostrato qui come il ragazzo che non conosce matematica e ha un problema con il gioco. Un vero statista bayesiano avrebbe postulato il priore, discusso il suo grado di obiettività, ricavato il posteriore e dimostrando quanto hanno imparato dai dati. Niente di tutto ciò è stato fatto, quindi il processo bayesiano è stato semplificato tanto quanto quello frequentista.
Questa situazione dimostra lo screening classico per il problema del cancro (e sono sicuro che i biostatisti possano descriverlo meglio di me). Quando si effettua lo screening per una malattia rara con uno strumento imperfetto, la maggior parte degli aspetti positivi risulta essere falsi positivi. Gli esperti di statistica lo sanno e sanno meglio seguire gli screening economici e sporchi con biopsie più costose e più accurate.