È sbagliato fare riferimento ai risultati come "altamente significativi"?


18

Perché gli statistici ci scoraggiano dal riferirci ai risultati come " altamente significativi" quando il valore è ben al di sotto del livello α convenzionale di 0,05 ?pα0.05

È davvero sbagliato fidarsi di un risultato che ha il 99,9% di probabilità di non essere un errore di tipo I ( ) più di un risultato che ti dà solo quella possibilità al 99% ( p = 0,01 )?p=0.001p=0.01


16
Potrebbe essere utile leggere la risposta di @ gung qui . In breve: per la decisione "significativo vs. non significativo" o "rifiuta l'ipotesi nulla vs. non respingere l'ipotesi nulla", importa solo se il valore è inferiore alla tua α che hai impostato prima dello studio (Neyman & Pearson) . D'altra parte, puoi considerare il valore p come una misura continua di prove contro l'ipotesi nulla che non ha "cutoff" (Fisher). pαp
COOLSerdash,

10
Sembra che tu abbia un grave malinteso sui valori di p (i valori di p non sono probabilità di errore) che, se corretti, potrebbero aiutarti a capire perché potresti sentire certe cose dagli statistici.
ragazzo

10
Confesso che a volte uso frasi come "altamente significative". Altrove nei rapporti molti dei risultati iniziali potrebbero dover essere adattati per test multipli, in cui "altamente significativo" acquisisce il significato più tecnico di "rimane significativo anche dopo un adeguato adeguamento per confronti multipli". Anche quando tutti i lettori concordano sull'appropriato da utilizzare (cosa rara per le analisi utilizzate da più parti interessate), ciò che è "significativo" o meno dipende dall'insieme di ipotesi che ciascun lettore aveva in mente prima di esaminare il rapporto. α
whuber

7
Non tutti gli statistici dicono che è sbagliato. Uso il termine me stesso in occasione (certamente raro), ad esempio per indicare che su questi dati il ​​valore null sarebbe stato respinto da persone che operavano a livelli di significatività sostanzialmente inferiori rispetto a quello che stavo usando, ma è importante non attribuire più significato ad esso di quello che ha. Direi semplicemente che bisogna prestare attenzione - a volte parecchio - quando si interpreta il significato di una tale frase, piuttosto che essere specificamente sbagliato . Alcuni dei punti qui sarebbero rilevanti.
Glen_b

7
(ctd) ... al confronto, penso che una preoccupazione maggiore sia rappresentata dalle persone che usano test di ipotesi che semplicemente non rispondono alla loro domanda di interesse (cosa che penso sia il caso molto spesso). Meglio concentrarsi su quel problema evidente e importante, piuttosto che essere eccessivamente dogmatici su una piccola infelicità nel modo in cui esprimono un valore p molto piccolo.
Glen_b

Risposte:


17

Penso che non ci sia molto di sbagliato nel dire che i risultati sono "altamente significativi" (anche se sì, è un po 'sciatto).

Significa che se avessi impostato un livello di significatività molto più piccolo , avresti comunque giudicato i risultati significativi. O, equivalentemente, se alcuni dei tuoi lettori hanno una molto più piccola α in mente, allora si può ancora giudicare i risultati come significativo.αα

Si noti che il livello di significatività è nell'occhio di chi guarda, mentre il valore p è (con alcuni avvertimenti) una proprietà dei dati.αp

Osservare non equivale all'osservare p = 0,04 , anche se entrambi potrebbero essere definiti "significativi" dalle convenzioni standard del proprio campo ( α = 0,05 ). Il piccolo valore p significa una prova più forte contro il nulla (per coloro a cui piace la struttura di Fisher delle prove di ipotesi); significa che l'intervallo di confidenza attorno alla dimensione dell'effetto escluderà il valore null con un margine maggiore (per coloro che preferiscono gli EC ai valori p ); significa che la probabilità posteriore del nulla sarà minore (per i bayesiani con alcuni precedenti); questo è tutto equivalente e significa semplicemente che i risultati sono più convincentip=1010p=0.04α=0.05pp. Vedi I valori p più piccoli sono più convincenti? per ulteriori discussioni.

Il termine "altamente significativo" non è preciso e non deve essere. È un giudizio esperto soggettivo, simile all'osservare un effetto sorprendentemente grande e definirlo "enorme" (o forse semplicemente "molto grande"). Non c'è niente di sbagliato nell'usare descrizioni qualitative e soggettive dei tuoi dati, anche nella scrittura scientifica; purché venga presentata anche l'analisi quantitativa obiettiva.


Vedi anche alcuni eccellenti commenti sopra, da +1 a @whuber, @Glen_b e @COOLSerdash.


2
PP<0.05

Non è affatto sciatto. È ben documentato come avere una definizione formale.
Gufo,

3

Questa è una domanda comune

Una domanda simile potrebbe essere "Perché p <= 0,05 è considerato significativo?" ( http://www.jerrydallal.com/LHSP/p05.htm )

@ Michael-Mayer ha dato una parte della risposta: il significato è solo una parte della risposta. Con dati sufficienti, di solito alcuni parametri vengono visualizzati come "significativi" (cercare la correzione di Bonferroni). I test multipli sono un problema specifico in genetica in cui sono frequenti studi di grandi dimensioni alla ricerca di significati e sono spesso richiesti valori p <10 -8 ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).

Inoltre, un problema con molte analisi è che erano opportunistiche e non pre-pianificate (ad esempio "Se torturi abbastanza i dati, la natura confesserà sempre". - Ronald Coase).

Generalmente, se un'analisi è pre-pianificata (con una correzione dell'analisi ripetuta per il potere statistico), può essere considerata significativa. Spesso, i test ripetuti da più individui o gruppi sono il modo migliore per confermare che qualcosa funziona (o meno). E la ripetizione dei risultati è molto spesso il test giusto per il significato.


2

Un test è uno strumento per una decisione bianco-nero, ovvero cerca di rispondere a una domanda sì / no del tipo "esiste un vero effetto terapeutico?". Spesso, soprattutto se il set di dati è grande, tale domanda è piuttosto uno spreco di risorse. Perché porre una domanda binaria se è possibile ottenere una risposta a una domanda quantitativa come "quanto è grande il vero effetto del trattamento?" che risponde implicitamente anche alla domanda sì / no? Quindi, invece di rispondere a una domanda sì / no non informativa con elevata certezza, raccomandiamo spesso l'uso di intervalli di confidenza che contengono molte più informazioni.


2
+1 Anche se potresti essere più esplicito su come questo risponde alla domanda del PO (non è così ovvio).

@Matthew: sono pienamente d'accordo.
Michael M,

Grazie Michael. Ma immagino che gli intervalli di confidenza (che danno la risposta "scala continua") si riferiscano alla dimensione dell'effetto, giusto? Anche così, non è necessario anche una risposta binaria per integrare la risposta continua, ovvero se questo effetto (la cui dimensione è descritta dagli EC) soddisfa il livello α concordato? O forse puoi anche dare gli EC per il valore p stesso?
z8080,

(A) "Dimensione dell'effetto" si riferisce di solito a una versione standardizzata dell'effetto del trattamento e quindi meno facile da interpretare dell'effetto stesso. (B) I CI per i valori p vengono talvolta aggiunti per i valori p simulati per esprimere l'incertezza della simulazione. (C) Se il tuo livello è 0,05, quindi in quasi tutte le situazioni di test, la decisione bianco / nero del test può essere derivata osservando il corrispondente 95% ci.
Michael M,

(seguito) La tua domanda è in qualche modo correlata alla seguente: è più utile affermare che anche il 99,9999% ci è incompatibile con il valore nullo o che anche il limite inferiore del 95% ci per il vero effetto è molto promettente?
Michael M,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.