Per quanto riguarda i test di significatività (o qualsiasi altra cosa che faccia essenzialmente la stessa cosa del test di significatività), ho a lungo pensato che l'approccio migliore nella maggior parte delle situazioni è probabilmente quello di stimare una dimensione dell'effetto standardizzata, con un intervallo di confidenza del 95% a tale proposito dimensione dell'effetto. Non c'è nulla di veramente nuovo lì - matematicamente puoi spostarti avanti e indietro tra di loro - se il valore p per un valore 'zero' è <.05, allora 0 si troverà al di fuori di un IC al 95% e viceversa. Il vantaggio di questo, secondo me, è psicologico; cioè produce informazioni salienti che esistono ma che le persone non possono vedere quando sono riportati solo valori p. Ad esempio, è facile vedere che un effetto è selvaggiamente "significativo", ma ridicolmente piccolo; o "non significativo", ma solo perché le barre di errore sono enormi, mentre l'effetto stimato è più o meno quello che ti aspettavi. Questi possono essere associati a valori non elaborati e ai loro elementi della configurazione.
Ora, in molti campi i valori grezzi sono intrinsecamente significativi e riconosco che solleva la questione se valga ancora la pena calcolare le misure della dimensione dell'effetto dato che abbiamo già valori come medie e pendenze. Un esempio potrebbe essere la crescita stentata; sappiamo cosa significa per un maschio bianco di 20 anni essere più corto di 6 +/- 2 pollici (cioè 15 +/- 5 cm) di quanto non farebbe altrimenti, quindi perché menzionare ? Tendo a pensare che ci possa essere ancora valore nel riferire entrambi, e le funzioni possono essere scritte per calcolarle in modo che sia molto poco lavoro extra, ma riconosco che le opinioni varieranno. Ad ogni modo, sostengo che le stime puntuali con intervalli di confidenza sostituiscono i valori p come prima parte della mia risposta. d=−1.6±.5
D'altra parte, penso che una domanda più grande sia "è la cosa che i test di significatività fanno ciò che vogliamo veramente?" Penso che il vero problema sia che per la maggior parte delle persone che analizzano i dati (cioè i professionisti non gli statistici), i test di significatività possono diventare la totalità dell'analisi dei dati. Mi sembra che la cosa più importante sia avere un modo di principio per pensare a ciò che sta succedendo con i nostri dati, e il test di significatività dell'ipotesi nulla è, nella migliore delle ipotesi, una parte molto piccola di ciò. Lasciatemi fare un esempio immaginario (riconosco che questa è una caricatura, ma purtroppo temo che sia in qualche modo plausibile):
Bob conduce uno studio, raccogliendo dati su qualcosa o altro. Si aspetta che i dati vengano normalmente distribuiti, raggruppandosi strettamente attorno a un valore e intende condurre un test t di un campione per vedere se i suoi dati sono "significativamente diversi" da un valore predefinito. Dopo aver raccolto il suo campione, verifica se i suoi dati sono normalmente distribuiti e scopre che non lo sono. Invece, non hanno un nodulo pronunciato al centro, ma sono relativamente alti in un dato intervallo e poi si allontanano con una lunga coda sinistra. Bob si preoccupa di cosa dovrebbe fare per assicurarsi che il suo test sia valido. Finisce per fare qualcosa (ad es. Una trasformazione, un test non parametrico, ecc.), Quindi riporta una statistica del test e un valore p.
Spero che questo non finisca per essere brutto. Non intendo deridere nessuno, ma penso che accada qualcosa di simile occasionalmente. Se dovesse verificarsi questo scenario, possiamo tutti concordare sul fatto che si tratta di una scarsa analisi dei dati. Tuttavia, il problema non è che la statistica del test o il valore p sono errati; possiamo affermare che i dati sono stati gestiti correttamente a tale riguardo. Direi che il problema è che Bob è impegnato in quella che Cleveland ha chiamato "analisi dei dati personali". Sembra credere che l'unico punto sia ottenere il giusto valore p, e pensa molto poco ai suoi dati al di fuori del perseguimento di tale obiettivo. Avrebbe anche potuto passare al mio suggerimento sopra e riportare una dimensione di effetto standardizzata con un intervallo di confidenza del 95%, e non avrebbe cambiato quello che vedo come il problema più grande (questo è ciò che intendevo facendo "essenzialmente la stessa cosa "con mezzi diversi). In questo caso specifico, il fatto che i dati non apparissero come previsto (ovvero non erano normali) sono informazioni reali, è interessante, e molto probabilmente importante, ma quell'informazione è essenzialmente buttata via. Bob non lo riconosce, a causa del focus sui test di significatività. Secondo me, questo è il vero problema con i test di significatività.
Consentitemi di affrontare alcune altre prospettive che sono state menzionate e voglio essere molto chiaro sul fatto che non sto criticando nessuno.
- Si dice spesso che molte persone non capiscono davvero i valori p (ad esempio, pensando che siano le probabilità che il nulla sia vero), ecc. Talvolta si sostiene che, se solo le persone usassero l'approccio bayesiano, questi problemi va via. Credo che le persone possano avvicinarsi all'analisi dei dati bayesiana in un modo altrettanto incurante e meccanico. Tuttavia, penso che fraintendere il significato dei valori di p sarebbe meno dannoso se nessuno pensasse che ottenere un valore di p fosse l'obiettivo.
- L'esistenza di "big data" non è generalmente correlata a questo problema. I big data rendono ovvio che organizzare l'analisi dei dati sulla "significatività" non è un approccio utile.
- Non credo che il problema sia con l'ipotesi in esame. Se le persone volessero solo vedere se il valore stimato è al di fuori di un intervallo, piuttosto che se è uguale a un valore in punti, potrebbero sorgere molti degli stessi problemi. (Ancora una volta, voglio essere chiaro, so che non sei "Bob" .)
- Per la cronaca, voglio menzionare che il mio suggerimento del primo paragrafo non affronta il problema, come ho cercato di sottolineare.
Per me, questo è il problema principale: quello che vogliamo davvero è un modo di principio per pensare a quello che è successo . Ciò che ciò significa in ogni data situazione non è tagliato e asciugato. Come impartire ciò agli studenti in una classe di metodi non è né chiaro né facile. I test di significatività hanno molta inerzia e tradizione alle spalle. In una classe di statistiche, è chiaro cosa deve essere insegnato e come. Per studenti e professionisti diventa possibile sviluppare uno schema concettuale per comprendere il materiale e una checklist / diagramma di flusso (ne ho visti alcuni!) Per condurre analisi. I test di significatività possono naturalmente evolversi in analisi dei dati personali senza che nessuno sia stupido, pigro o cattivo. Questo è il problema