Dal mio punto di vista, il problema si riduce a cosa significhi effettivamente eseguire un test di significatività. Il test di significatività è stato concepito come mezzo per prendere la decisione di rifiutare l'ipotesi nulla o di non respingerla. Fisher stesso ha introdotto la famigerata regola 0.05 per prendere quella (arbitraria) decisione.
Fondamentalmente, la logica del test di significatività è che l'utente deve specificare un livello alfa per rifiutare l'ipotesi nulla (convenzionalmente 0,05) prima di raccogliere i dati . Dopo aver completato il test di significatività, l'utente rifiuta il valore null se il valore p è inferiore al livello alfa (o non riesce a rifiutarlo altrimenti).
Il motivo per cui non puoi dichiarare un effetto altamente significativo (diciamo, a livello di 0,001) è perché non puoi trovare prove più forti di quelle che hai deciso di trovare. Pertanto, se imposti il livello alfa a 0,05 prima del test, puoi trovare prove solo al livello 0,05, indipendentemente da quanto piccoli siano i tuoi valori p. Allo stesso modo, parlare di effetti che sono "in qualche modo significativi" o "significato in avvicinamento" non ha molto senso perché hai scelto questo criterio arbitrario di 0,05. Se interpretate la logica del test di significatività alla lettera, qualcosa di più grande di 0,05 non è significativo.
Concordo sul fatto che termini come "avvicinarsi al significato" sono spesso usati per migliorare le prospettive di pubblicazione. Tuttavia, non credo che gli autori possano essere biasimati per questo perché l'attuale cultura editoriale in alcune scienze si basa ancora pesantemente sul "santo graal" di 0,05.
Alcuni di questi problemi sono discussi in:
Gigerenzer, G. (2004). Statistiche insensate. The Journal of Socio-Economics, 33 (5), 587-606.
Royall, R. (1997). Prove statistiche: un paradigma della verosimiglianza (Vol. 71). CRC premere.