Non puoi avere una regola di arresto senza un'idea della tua distribuzione e della tua dimensione dell'effetto - che non conosci a priori.
Inoltre sì, dobbiamo concentrarci sulla dimensione dell'effetto - e non è mai stato considerato corretto considerare solo i valori p, e non dovremmo certamente mostrare tabelle o grafici che mostrano valori p o valori F piuttosto che dimensioni dell'effetto.
Ci sono problemi con il tradizionale test di inferenza sull'ipotesi statistica (che Cohen dice che è degno del suo acronimo, e Fisher e Pearson si rivolterebbero entrambi nelle tombe se vedessero tutto ciò che viene fatto oggi nei loro nomi violentemente opposti).
Per determinare N, è necessario aver già determinato un significato target e una soglia di potenza, oltre a fare molte ipotesi sulla distribuzione, e in particolare è necessario aver determinato la dimensione dell'effetto che si desidera stabilire. Indolering ha esattamente ragione che questo dovrebbe essere il punto di partenza: quale dimensione minima dell'effetto sarebbe conveniente!
La "Nuova statistica" sta proponendo di mostrare le dimensioni dell'effetto (come differenza accoppiata ove appropriato), insieme alle deviazioni standard associate o alla varianza (perché dobbiamo comprendere la distribuzione) e le deviazioni standard o gli intervalli di confidenza (ma quest'ultima è già bloccando un valore p e una decisione se si sta predendo una direzione o una scommessa a senso unico). Ma impostare un effetto minimo del segno specificato con una previsione scientifica, lo chiarisce, sebbene il default pre-scientifico sia quello di fare prove ed errori e cercare solo le differenze. Ma ancora una volta hai fatto delle ipotesi sulla normalità se vai in questo modo.
Un altro approccio consiste nell'utilizzare i grafici a scatole come un approccio non parametrico, ma le convenzioni su baffi e valori anomali variano ampiamente e anche allora si originano in ipotesi distributive.
Il problema di arresto non è in effetti un problema di impostazione di un singolo ricercatore o di non impostazione di N, ma che abbiamo un'intera comunità di migliaia di ricercatori, dove 1000 è molto più di 1 / alfa per il tradizionale livello 0,05. La risposta attualmente proposta è quella di fornire le statistiche riassuntive (media, stddev, stderr - o corrispondenti "versioni non parametriche - mediana ecc. Come nel caso del boxplot) per facilitare la meta-analisi e presentare i risultati combinati di tutti gli esperimenti se si verificano aver raggiunto o meno un determinato livello alfa.
Strettamente correlato è il problema dei test multipli, che è altrettanto irto di difficoltà e in cui gli esperimenti sono mantenuti troppo semplicistici in nome della conservazione del potere, mentre vengono proposte metodologie troppo complesse per analizzare i risultati.
Non penso che ci possa essere un capitolo di un libro di testo che affronti questo definitivamente, dato che non abbiamo ancora idea di cosa stiamo facendo ...
Per il momento, l'approccio migliore è probabilmente quello di continuare a utilizzare le statistiche tradizionali più appropriate al problema, combinate con la visualizzazione delle statistiche di riepilogo: l'effetto e l'errore standard e N è il più importante. L'uso di intervalli di confidenza è sostanzialmente equivalente al corrispondente test T, ma consente di confrontare i nuovi risultati con quelli pubblicati in modo più significativo, oltre a consentire un ethos che incoraggi la riproducibilità e la pubblicazione di esperimenti riprodotti e meta-analisi.
In termini di approcci teorici o bayesiani delle informazioni, usano strumenti diversi e fanno ipotesi diverse, ma non hanno ancora tutte le risposte, e alla fine affrontano gli stessi problemi, o peggio, perché l'inferenza bayesiana fa un passo indietro rispetto alla definizione definitiva rispondere e semplicemente aggiunge prove relative ai presupposti assunti o assenti.
L'apprendimento automatico alla fine ha anche risultati che deve prendere in considerazione per significatività - spesso con IC o T-Test, spesso con grafici, si spera che si abbini piuttosto che solo confrontando e usando versioni adeguatamente compensate quando le distribuzioni non corrispondono. Ha anche le sue controversie sul bootstrap e sulla validazione incrociata, e sulla parzialità e la varianza. Peggio ancora, ha la propensione a generare e testare miriadi di modelli alternativi semplicemente parametrizzando accuratamente tutti gli algoritmi in uno dei tanti toolbox, applicati ai set di dati accuratamente archiviati per consentire test multipli sfrenati. Peggio ancora è ancora nei secoli bui usando l'accuratezza, o peggio ancora la misura F, per la valutazione - piuttosto che metodi corretti dal caso.
Ho letto dozzine di articoli su questi temi, ma non sono riuscito a trovare nulla di totalmente convincente, tranne i sondaggi negativi o i documenti di meta-analisi che sembrano indicare che la maggior parte dei ricercatori non gestisce e interpreta le statistiche correttamente rispetto a qualsiasi "standard ", vecchio o nuovo. Potenza, test multipli, dimensionamento e arresto anticipato, interpretazione di errori standard e intervalli di confidenza, ... questi sono solo alcuni dei problemi.
Per favore, abbattimi: vorrei essere smentito! Dal mio punto di vista c'è molta acqua da bagno, ma non abbiamo ancora trovato il bambino! A questo punto nessuna delle visioni estreme o approcci di marca sembra promettente come la risposta, e quelli che vogliono buttare via tutto il resto hanno probabilmente perso il bambino.