Accettazione dell'ipotesi nulla


15

Questa è una domanda di discussione sull'intersezione tra statistica e altre scienze. Mi trovo spesso ad affrontare lo stesso problema: i ricercatori nel mio campo tendono a dire che non vi è alcun effetto quando il valore p non è inferiore al livello di significatività. All'inizio, ho spesso risposto che non è così che funziona il test delle ipotesi. Data la frequenza con cui sorge questa domanda, vorrei discutere questo problema con statistici più esperti.

Consideriamo un articolo recente sulla rivista scientifica del "miglior gruppo editoriale" Nature Communications Biology (ci sono molti esempi, ma concentriamoci su uno)

I ricercatori interpretano un risultato non statisticamente significativo nel modo seguente:

Pertanto una moderata restrizione calorica cronica può prolungare la durata della vita e migliorare la salute di un primate, ma influisce sull'integrità della materia grigia del cervello senza influire sulle prestazioni cognitive .

Prova:

Tuttavia, le prestazioni nel labirinto di Barnes non differivano tra animali di controllo e ipocalorici (LME: F = 0,05, p = 0,82; Fig. 2a). Allo stesso modo, l'attività di alternanza spontanea non ha rivelato alcuna differenza tra animali di controllo e ipocalorici (LME: F = 1.63, p = 0.22; Fig. 2b).

Gli autori suggeriscono anche la spiegazione dell'assenza dell'effetto, ma il punto chiave non è la spiegazione ma l'affermazione stessa. Le trame fornite sembrano significativamente diverse "ad occhio" per me (Figura 2).

Inoltre, gli autori ignorano le conoscenze precedenti:

effetti deleteri della restrizione calorica sulle prestazioni cognitive sono stati segnalati per i ratti e per le funzioni cerebrali ed emotive nell'uomo

Riesco a capire la stessa affermazione per le enormi dimensioni del campione (nessun effetto = nessun effetto praticamente significativo lì), ma in situazioni particolari sono stati utilizzati test complessi e non è ovvio per me come eseguire calcoli di potenza.

Domande:

  1. Ho trascurato alcuni dettagli che rendono valide le loro conclusioni?

  2. Tenendo conto della necessità di riportare i risultati negativi nella scienza, come dimostrare che non è "l'assenza di risultato" (che abbiamo con ), ma "risultato negativo (ad esempio non c'è differenza tra i gruppi)" usando statistiche? Capisco che per enormi dimensioni del campione anche piccole deviazioni dal nulla causano il rifiuto, ma supponiamo che abbiamo dati ideali e che dobbiamo ancora dimostrare che il valore null è praticamente vero.p>α

  3. Gli statistici dovrebbero sempre insistere su conclusioni matematicamente corrette come "avendo questo potere non siamo stati in grado di rilevare effetti di dimensioni significative"? Ai ricercatori di altri campi non piacciono molto queste formulazioni di risultati negativi.

Sarei felice di sentire qualsiasi pensiero sul problema e ho letto e compreso le domande correlate su questo sito web. C'è una risposta chiara alle domande 2) -3) dal punto di vista statistico, ma vorrei capire come rispondere a queste domande in caso di dialogo interdisciplinare.

UPD: Penso che un buon esempio di risultato negativo sia la prima fase delle prove mediche, la sicurezza. Quando gli scienziati possono decidere che il farmaco è sicuro? Immagino che confrontino due gruppi e facciano statistiche su questi dati. C'è un modo per dire che questo farmaco è sicuro? Cochrane utilizza un accurato "nessun effetto collaterale trovato", ma i medici affermano che questo farmaco è sicuro. Quando l'equilibrio tra accuratezza e semplicità della descrizione si incontra e possiamo dire "non ci sono conseguenze per la salute"?


2
Chiamate risultati non statisticamente significativi uno studio "negativo". Questo è linguaggio defenestrante. L'ho rivisto per chiamarlo così com'è: non statisticamente significativo, ad esempio . Se sbaglio, per favore dimmi come. Altrimenti, è un linguaggio utile per te e i tuoi collaboratori per descrivere uno studio. p > α significa solo che p > α . Se n = 500 , 000 questo può essere un risultato molto "positivo" sotto alcuni aspetti; forse questo è il primo studio epidemiologico su larga scala per ispezionare la relazione tra un'esposizione chimica e la salute umana che trova che in realtà è sicuro. p>αp>αp>αn=500,000
AdamO

4
Nota a margine: non consiglierei mai di usare Nature come linea guida per l'uso corretto delle statistiche.
Cliff AB,

1
@AdamO Ho un esempio di due articoli pubblicati più o meno nello stesso momento, in un articolo gli autori hanno affermato un risultato fortemente negativo (era la loro conclusione principale), nel secondo studio più potente, hanno trovato ed effetto. Ma se il primo autore scrivesse "con un potere dell'80% con una dimensione dell'effetto di 1 non siamo in grado di trovare un effetto significativo" - non verrebbe pubblicato nemmeno sulla rivista dei risultati negativi.
Demidov tedesco,

2
ma i non statistici mi chiedono "come si ottengono risultati negativi?" - e non so come rispondere. Che dire dell'ipotesi spesso usata nelle prove di equivalenza ? Ciò include un termine aggiuntivo come "margine di equivalenza" e può tenere conto della differenza media.
Penguin_Knight

2
È un errore comune che Nature Publishing Group sta sfruttando, ma la differenza di prestigio tra le riviste è enorme. Detto questo, ovviamente gli articoli nella stessa natura possono anche avere statistiche sciatte.
ameba dice Reinstate Monica il

Risposte:


7

Penso che a volte sia appropriato interpretare risultati non statisticamente significativi nello spirito di "accettare l'ipotesi nulla". In effetti, ho visto studi statisticamente significativi interpretati in questo modo; lo studio era troppo preciso e i risultati erano coerenti con una gamma ristretta di effetti non nulli ma clinicamente insignificanti. Ecco una critica piuttosto accecante di uno studio (o inoltre della sua stampa) sulla relazione tra consumo di cioccolato / vino rosso e il suo effetto "salubre" sul diabete. Le curve di probabilità per le distribuzioni di insulino-resistenza dall'assunzione alta / bassa sono isteriche.

Se uno può interpretare i risultati come "conferma di H_0" dipende da un gran numero di fattori: la validità dello studio, la potenza, l'incertezza della stima e l'evidenza precedente. Segnalare l'intervallo di confidenza (CI) invece del valore p è forse il contributo più utile che puoi dare come statistico. Ricordo a ricercatori e colleghi statistici che le statistiche non prendono decisioni, le persone fanno; l'omissione di valori p incoraggia effettivamente una discussione più ponderata dei risultati.

L'ampiezza dell'IC descrive una gamma di effetti che possono o meno includere il valore nullo e possono includere o meno valori molto clinicamente significativi come il potenziale salvavita. Tuttavia, un CI ristretto conferma un tipo di effetto; o quest'ultimo tipo che è "significativo" in un senso vero, o il primo che può essere il nulla o qualcosa di molto vicino al nulla.

Forse ciò che è necessario è un senso più ampio di quali siano i "risultati nulli" (e gli effetti nulli). Ciò che trovo deludente nella collaborazione di ricerca è quando gli investigatori non possono a priori dichiarare quale gamma di effetti stanno prendendo di mira: se un intervento è pensato per abbassare la pressione sanguigna, quanti mmHg? Se un farmaco ha lo scopo di curare il cancro, quanti mesi di sopravvivenza avrà il paziente? Qualcuno che è appassionato di ricerca e "inserito" nel loro campo e scienza può scuotere i fatti più sorprendenti sulla ricerca precedente e ciò che è stato fatto.

Nel tuo esempio, non posso fare a meno di notare che il valore p di 0,82 è probabilmente molto vicino al valore nullo. Da ciò, tutto ciò che posso dire è che l'IC è centrato su un valore nullo. Quello che non so è se comprende effetti clinicamente significativi. Se la CI è molto ristretta, l'interpretazione che danno è, a mio avviso, corretta ma i dati non la supportano: sarebbe una modifica minore. Al contrario, il secondo valore p di 0,22 è relativamente più vicino alla sua soglia di significatività (qualunque essa sia). Gli autori lo interpretano di conseguenza come "non dare alcuna prova della differenza" che è coerente con un'interpretazione di tipo "non rifiutare H_0". Per quanto riguarda la pertinenza dell'articolo, posso dire molto poco. Spero che sfogli la letteratura trovando discussioni più salienti sui risultati dello studio! Per quanto riguarda le analisi,


1
Fk

pμ=μ0μμ0

Ovviamente! (e +1 se ciò non fosse chiaro) Ma seriamente, dovresti essere esperto di test di equivalenza: è emerso all'interno dell'epidemiologia clinica e della biostatistica (un patrimonio onorevole per il campo!), ma è di importanza generale per l'inferenza del frequentatore. :)
Alexis,

1
@GermanDemidov Prendo una linea dura su queste questioni: penso che analisi complicate non dovrebbero essere prese in considerazione se i loro effetti non possono essere interpretati. Essi fare avere un'interpretazione. Survival Analysis 2a edizione di Hosmer, Lemeshow, May ha un intero capitolo (4) dedicato all'interpretazione dell'output del modello Cox. La carenza di test, come Shapiro, viene affrontata al meglio utilizzando grafici (questo spesso preclude il test stesso). Le statistiche di ricampionamento forniscono un mezzo efficace per calcolare gli EC in un'ampia varietà di condizioni di modellazione, ma richiedono una teoria del suono per essere usati correttamente.
AdamO,

3
αH0

12

H0H0HAHA

Tuttavia, siamo in grado di riconoscere che ci sono diversi tipi di ipotesi nulla:

  • H0:θθ0H0:θθ0

  • H0:θ=θ0H0:θθ0=0H0:θ1=θ2H0:θ1θ2=0H0+kH0+:θi=θj;i,j{1,2,k};  and ij

  • H0:|θθ0|ΔH0:|θ1θ2|ΔΔH0±Δ|Δ|kH0:|θi=θj|Δ;i,j{1,2,k};  and ij

Il [tost]H0+H0+, è perché non vi è alcun effetto reale o perché la dimensione del campione era troppo piccola e il test è sotto-potenziato? I test di pertinenza affrontano questi problemi frontalmente.

Esistono alcuni modi per eseguire test di equivalenza (indipendentemente dal fatto che si stia combinando o meno con i test di differenza):

  • Due test unilaterali (TOST) traducono l'ipotesi nulla negativista generale espressa sopra in due ipotesi null unilaterali specifiche:
    • H01:θθ0ΔH01:θ1θ2Δ
    • H02:θθ0ΔH01:θ1θ2Δ
  • Test uniformemente più potenti per l'equivalenza, che tendono ad essere molto più aritmetici sofisticati di TOST. Wellek è il riferimento definitivo per questi.
  • Un approccio basato sull'intervallo di confidenza, credo inizialmente motivato da Schuirman e perfezionato da altri, come Tryon.


Riferimenti Reagle, DP e Vinod, HD (2003). Inferenza per la teoria negativista usando regioni di rifiuto numericamente calcolate . Statistiche computazionali e analisi dei dati , 42 (3): 491–512.

Schuirmann, DA (1987). Un confronto tra la procedura dei due test unilaterali e l'approccio energetico per valutare l'equivalenza della biodisponibilità media . Journal of Pharmacokinetics and Biopharmaceutics , 15 (6): 657–680.

Tryon, WW e Lewis, C. (2008). Un metodo inferenziale di intervallo di confidenza per stabilire l'equivalenza statistica che corregge il fattore di riduzione di Tryon (2001) . Metodi psicologici , 13 (3): 272–277.

Tryon, WW e Lewis, C. (2009). Valutazione di proporzioni indipendenti per differenza statistica, equivalenza, indeterminatezza e differenza insignificante usando intervalli di confidenza inferenziale . Journal of Educational and Behavioural Statistics , 34 (2): 171–189.

Wellek, S. (2010). Verifica delle ipotesi statistiche di equivalenza e non inferiorità . Chapman and Hall / CRC Press, seconda edizione.


1
Chiunque mi abbia votato in negativo dovrebbe farsi avanti con alcuni feedback sul perché: dovrebbe essere chiaro che fornisco risposte dettagliate e sono sensibile agli input.
Alexis,

9

Ti riferisci alla pratica di inferenza standard insegnata nei corsi di statistica:

  1. H0,Ha
  2. α
  3. α
  4. H0HaH0

Questo va bene ed è usato in pratica. Mi permetto persino di indovinare che questa procedura potrebbe essere obbligatoria in alcuni settori regolamentati come i prodotti farmaceutici.

Tuttavia, questo non è l'unico modo in cui le statistiche e le inferenze si applicano nella ricerca e nella pratica. Ad esempio, dai un'occhiata a questo documento : "Osservazione di una nuova particella nella ricerca del bosone di Higgs del modello standard con il rivelatore ATLAS presso l'LHC". Il documento è stato il primo a presentare le prove dell'esistenza del bosone di Higgs, nel cosiddetto esperimento ATLAS. Era anche uno di quegli articoli in cui l'elenco degli autori è lungo quanto il suo contenuto reale :)

  • H0Hun'H0 leggendo il testo.
  • Usano il termine "significato", ma non come α-soglia di significatività nell'inferenza "standard". Esprimono semplicemente la distanza in deviazioni standard, ad es. "I significati locali osservati per mH = 125 GeV sono 2.7σ"
  • presentano valori p "grezzi" e non li eseguono confronti "rifiuta / non riescono a rifiutare" con livelli di significatività α, come ho scritto prima, non usano nemmeno quest'ultimo
  • presentano intervalli di confidenza ai normali livelli di confidenza come il 95%

Ecco come viene formulata la conclusione: "Questi risultati forniscono prove conclusive per la scoperta di una nuova particella con massa 126,0 ± 0,4 (stat) ± 0,4 (sys) GeV." Le parole "stat" si riferiscono a statistiche e "sys" a incertezze sistematiche.

Quindi, come vedi non tutti eseguono la procedura in quattro passaggi che ho delineato all'inizio di questa risposta. Qui, i ricercatori mostrano il valore p senza pre-stabilire la soglia, contrariamente a quanto viene insegnato nelle lezioni di statistica. In secondo luogo, non fanno "rifiutare / non rifiutare" la danza, almeno formalmente. Hanno dato la caccia e hanno detto "ecco il valore p, ed è per questo che diciamo che abbiamo trovato una nuova particella con 126 GeV di massa".

Nota importante

Gli autori dell'articolo di Higgs non hanno ancora dichiarato il bosone di Higgs. Hanno solo affermato che la nuova particella è stata trovata e che alcune delle sue proprietà come una massa sono coerenti con il bosone di Higgs.

Ci sono voluti un paio d'anni per raccogliere ulteriori prove prima che si stabilisse che la particella è davvero il bosone di Higgs. Vedi questo post del blog con una prima discussione dei risultati. I fisici hanno continuato a controllare diverse proprietà come lo zero spin. E mentre le prove sono state raccolte ad un certo punto il CERN ha dichiarato che la particella è il bosone di Higgs.

Perché questo è importante? Perché è impossibile banalizzare il processo di scoperta scientifica ad una rigida procedura di inferenza statistica. L'inferenza statistica è solo uno strumento utilizzato.

Quando il CERN stava cercando questa particella, l'attenzione era concentrata sulla prima ricerca. Era l'obiettivo finale. Il fisico aveva un'idea di dove guardare. Una volta trovato un candidato, si sono concentrati sulla dimostrazione che è quello giusto. Alla fine, la totalità delle prove, non un singolo esperimento con valore p e significato, ha convinto tutti che abbiamo trovato la particella. Includere qui tutte le conoscenze precedenti e il modello standard . Questa non è solo un'inferenza statistica, il metodo scientifico è più ampio di quello.


wow, la tua risposta è fantastica! questo è davvero un buon esempio. Spero che in massimo 10 anni anche gli scienziati della vita arriveranno a questo stile di rapporto!
Demidov tedesco,

5

Esistono modi per affrontare questo problema che non si basano sui calcoli della potenza (vedi Wellek, 2010). In particolare, puoi anche verificare se rifiuti il ​​nulla che l'effetto abbia una grandezza significativa a priori .

Daniël Lakens sostiene questa situazione per i test di equivalenza. In particolare i lakens usano " TOST " (due test unilaterali) per confronti medi, ma ci sono altri modi per ottenere la stessa idea.

In TOST testerai un composto nullo: l'ipotesi nulla unilaterale secondo cui il tuo effetto è più negativo della più piccola differenza negativa di interesse e il nulla che il tuo effetto è più positivo della più piccola differenza positiva di interesse. Se rifiuti entrambi, allora puoi affermare che non vi è alcuna differenza significativa. Si noti che ciò può accadere anche se l'effetto è significativamente diverso da zero, ma in nessun caso richiede l'approvazione del null.

Lakens, D. (2017). Test di equivalenza: un pratico primer per test t , correlazioni e meta-analisi . Scienze psicologiche e della personalità sociale , 8 (4), 355-362.

Wellek, S. (2010). Verifica delle ipotesi statistiche di equivalenza e non inferiorità . Chapman and Hall / CRC Press, seconda edizione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.