Mi offendo molto per le seguenti due idee:
Con campioni di grandi dimensioni, i test di significatività saltano su partenze minime e non importanti dall'ipotesi nulla.
Quasi nessuna ipotesi nulla è vera nel mondo reale, quindi eseguire un test di significatività su di essi è assurdo e bizzarro.
È un argomento così folle sui valori di p. Il problema fondamentale che ha motivato lo sviluppo delle statistiche deriva dal vedere una tendenza e dal voler sapere se ciò che vediamo è per caso o rappresentativo di una tendenza sistematica.
Con questo in mente, è vero che noi, come statistici, in genere non crediamo che un'ipotesi nulla sia vera (cioè , dove è la differenza media in alcune misurazioni tra due gruppi). Tuttavia, con i test su due lati, non sappiamo quale ipotesi alternativa sia vera! In un test su due lati, potremmo essere disposti a dire che siamo sicuri al 100% che prima di vedere i dati. Ma non sappiamo se o . Quindi se eseguiamo il nostro esperimento e concludiamo che , abbiamo rifiutato (come potrebbe dire Matloff; conclusione inutile) ma, cosa più importante, abbiamo anche rifiutatoHo:μd=0μdμd≠0μd>0μd<0μd>0μd=0μd<0 (dico; conclusione utile). Come ha sottolineato @amoeba, questo vale anche per i test a un lato che hanno il potenziale per essere a due lati, come testare se un farmaco ha un effetto positivo.
È vero che questo non ti dice l'entità dell'effetto. Ma ti dice la direzione dell'effetto. Quindi non mettiamo il carrello davanti al cavallo; prima di iniziare a trarre conclusioni sull'entità dell'effetto, voglio essere sicuro di avere la direzione dell'effetto corretta!
Allo stesso modo, l'argomento secondo cui "i valori di p precipitano su effetti minuscoli e non importanti" mi sembra del tutto errato. Se pensi a un valore p come una misura di quanto i dati supportano la direzione della tua conclusione, allora ovviamente vuoi che raccolga piccoli effetti quando la dimensione del campione è abbastanza grande. Dire questo significa che non sono utili è molto strano per me: questi campi di ricerca che hanno sofferto di valori p sono gli stessi che hanno così tanti dati che non hanno bisogno di valutare l'affidabilità delle loro stime? Allo stesso modo, se il tuo problema è che i valori p "saltano su dimensioni di effetto minuscole", puoi semplicemente testare le ipotesi eH 2 : μ d < - 1H1:μd>1H2:μd<−1(supponendo che tu creda che 1 sia la dimensione minima dell'effetto importante). Questo viene fatto spesso negli studi clinici.
Per illustrare ulteriormente questo, supponiamo di aver appena esaminato gli intervalli di confidenza e scartato i valori p. Qual è la prima cosa da verificare nell'intervallo di confidenza? Se l'effetto è stato strettamente positivo (o negativo) prima di prendere i risultati troppo sul serio. Come tale, anche senza valori p, faremmo informalmente test di ipotesi.
Infine, per quanto riguarda la richiesta dell'OP / Matloff, "Dai un convincente argomento sul fatto che i valori di p siano significativamente migliori", penso che la domanda sia un po 'imbarazzante. Lo dico perché, a seconda del tuo punto di vista, risponde automaticamente ("dammi un esempio concreto in cui testare un'ipotesi è meglio che non testarli"). Tuttavia, un caso speciale che ritengo quasi innegabile è quello dei dati RNAseq. In questo caso, stiamo in genere osservando il livello di espressione dell'RNA in due diversi gruppi (cioè malati, controlli) e provando a trovare geni che sono espressi in modo differenziato nei due gruppi. In questo caso, la dimensione dell'effetto stesso non è nemmeno molto significativa. Questo perché i livelli di espressione di diversi geni variano così selvaggiamente che per alcuni geni, avere un'espressione 2 volte più alta non significa nulla, mentre su altri geni strettamente regolati, l'espressione 1.2x più alta è fatale. Quindi l'entità effettiva della dimensione dell'effetto è in realtà un po 'poco interessante quando si confrontano per la prima volta i gruppi. Ma tuvoglio davvero sapere se l'espressione del gene cambia tra i gruppi e la direzione del cambiamento! Inoltre, è molto più difficile affrontare i problemi di confronti multipli (per i quali potresti averne 20.000 in una sola corsa) con intervalli di confidenza piuttosto che con valori p.