Questa è una domanda di discussione sull'intersezione tra statistica e altre scienze. Mi trovo spesso ad affrontare lo stesso problema: i ricercatori nel mio campo tendono a dire che non vi è alcun effetto quando il valore p non è inferiore al livello di significatività. All'inizio, ho spesso risposto che non è così che funziona il test delle ipotesi. Data la frequenza con cui sorge questa domanda, vorrei discutere questo problema con statistici più esperti.
Consideriamo un articolo recente sulla rivista scientifica del "miglior gruppo editoriale" Nature Communications Biology (ci sono molti esempi, ma concentriamoci su uno)
I ricercatori interpretano un risultato non statisticamente significativo nel modo seguente:
Pertanto una moderata restrizione calorica cronica può prolungare la durata della vita e migliorare la salute di un primate, ma influisce sull'integrità della materia grigia del cervello senza influire sulle prestazioni cognitive .
Prova:
Tuttavia, le prestazioni nel labirinto di Barnes non differivano tra animali di controllo e ipocalorici (LME: F = 0,05, p = 0,82; Fig. 2a). Allo stesso modo, l'attività di alternanza spontanea non ha rivelato alcuna differenza tra animali di controllo e ipocalorici (LME: F = 1.63, p = 0.22; Fig. 2b).
Gli autori suggeriscono anche la spiegazione dell'assenza dell'effetto, ma il punto chiave non è la spiegazione ma l'affermazione stessa. Le trame fornite sembrano significativamente diverse "ad occhio" per me (Figura 2).
Inoltre, gli autori ignorano le conoscenze precedenti:
effetti deleteri della restrizione calorica sulle prestazioni cognitive sono stati segnalati per i ratti e per le funzioni cerebrali ed emotive nell'uomo
Riesco a capire la stessa affermazione per le enormi dimensioni del campione (nessun effetto = nessun effetto praticamente significativo lì), ma in situazioni particolari sono stati utilizzati test complessi e non è ovvio per me come eseguire calcoli di potenza.
Domande:
Ho trascurato alcuni dettagli che rendono valide le loro conclusioni?
Tenendo conto della necessità di riportare i risultati negativi nella scienza, come dimostrare che non è "l'assenza di risultato" (che abbiamo con ), ma "risultato negativo (ad esempio non c'è differenza tra i gruppi)" usando statistiche? Capisco che per enormi dimensioni del campione anche piccole deviazioni dal nulla causano il rifiuto, ma supponiamo che abbiamo dati ideali e che dobbiamo ancora dimostrare che il valore null è praticamente vero.
Gli statistici dovrebbero sempre insistere su conclusioni matematicamente corrette come "avendo questo potere non siamo stati in grado di rilevare effetti di dimensioni significative"? Ai ricercatori di altri campi non piacciono molto queste formulazioni di risultati negativi.
Sarei felice di sentire qualsiasi pensiero sul problema e ho letto e compreso le domande correlate su questo sito web. C'è una risposta chiara alle domande 2) -3) dal punto di vista statistico, ma vorrei capire come rispondere a queste domande in caso di dialogo interdisciplinare.
UPD: Penso che un buon esempio di risultato negativo sia la prima fase delle prove mediche, la sicurezza. Quando gli scienziati possono decidere che il farmaco è sicuro? Immagino che confrontino due gruppi e facciano statistiche su questi dati. C'è un modo per dire che questo farmaco è sicuro? Cochrane utilizza un accurato "nessun effetto collaterale trovato", ma i medici affermano che questo farmaco è sicuro. Quando l'equilibrio tra accuratezza e semplicità della descrizione si incontra e possiamo dire "non ci sono conseguenze per la salute"?