Sto leggendo le diapositive "Doing Bayesian Data Analysis" di John Kruschke , ma in realtà ho una domanda sulla sua interpretazione dei test t e / o sull'intero framework di test di significatività dell'ipotesi nulla. Sostiene che i valori di p sono mal definiti perché dipendono dalle intenzioni dell'investigatore.
In particolare, fornisce un esempio (pagine 3-6) di due laboratori che raccolgono set di dati identici confrontando due trattamenti. Un laboratorio si impegna a raccogliere dati da 12 soggetti (6 per condizione), mentre l'altro raccoglie dati per una durata fissa, che a sua volta produce anche 12 soggetti. Secondo le diapositive, il valore critico per differisce tra questi due schemi di raccolta dati: per il primo, ma per il secondo !p < 0,05 t crit = 2,33 t crit = 2,45
Un post sul blog - che ora non riesco a trovare - ha suggerito che lo scenario a durata fissa ha più gradi di libertà poiché avrebbero potuto raccogliere dati da 11, 13 o qualsiasi altro numero di argomenti, mentre lo scenario a N fisso, da definizione, ha .
Qualcuno potrebbe spiegarmi:
Perché il valore critico differirebbe tra queste condizioni?
(Supponendo che sia un problema) Come si potrebbe fare per correggere / confrontare gli effetti di diversi criteri di arresto?
So che l'impostazione dei criteri di arresto in base alla significatività (ad esempio, campione fino a ) può gonfiare le possibilità di un errore di tipo I, ma ciò non sembra succedere qui, poiché nessuna delle due regole di arresto dipende dal risultato di le analisi.