È sbagliato riferirsi ai risultati come "quasi" o "piuttosto" significativi?


13

Il consenso generale su una domanda simile, è sbagliato riferirsi ai risultati come "altamente significativi"? è che "altamente significativo" è un modo valido, anche se non specifico, per descrivere la forza di un'associazione che ha un valore p molto inferiore alla soglia di significatività preimpostata. Tuttavia, che dire della descrizione di valori p leggermente superiori alla soglia? Ho visto alcuni articoli usare termini come "piuttosto significativo", "quasi significativo", "significato prossimo" e così via. Trovo che questi termini siano un po 'ambiziosi, in alcuni casi un modo disingenuo limite di trarre un risultato significativo da uno studio con risultati negativi. Questi termini sono accettabili per descrivere i risultati che "mancano" al valore soglia del valore p?


3
Non credo che nessuno abbia suggerito qualificazioni "significative" per descrivere la "forza di un'associazione"; quest'ultimo suona più come una misura della dimensione dell'effetto. Comunque, vedi qui per un elenco più completo.
Scortchi - Ripristina Monica

1
@Scortchi - Secondo la mia comprensione, un valore p molto piccolo è molto significativo, il che significa una forte associazione tra la variabile in questione e il target. Questo è il risultato di una grande dimensione dell'effetto, molti dati o entrambi. Per valori p elevati, le prove a sostegno di un'associazione tra variabile e target sono deboli. Inoltre, adoro quell'elenco nel tuo link.
Nuclear Wang,

9
Ottenere un valore p molto piccolo per una dimensione di effetto ridotta difficilmente può essere chiamato "associazione forte". Sarebbe solo un'associazione rilevabile .
whuber

2
Ho visto persone che usano queste frasi molto nel settore, non nei documenti accademici.
Aksakal,

1
Forse il tuo disagio deriva dal credere che i valori p (o qualsiasi altro numero derivato da un campione) siano misure acute di qualcosa.
Eric Towers,

Risposte:


14

Se vuoi consentire che il "significato" ammetta dei gradi, allora abbastanza giusto ("un po 'significativo", "abbastanza significativo"), ma evita le frasi che suggeriscono che sei ancora legato all'idea di una soglia, come "quasi significativo" , "avvicinarsi al significato" o "alla cuspide del significato" (il mio preferito da "Still Not Significant" sul blog Probable Error ), se non vuoi apparire disperato.


9
(+1) per il collegamento. Ma penso che il momento culminante della creatività poetica sia "barcollare sull'orlo del significato (p = 0,06)" .
Alecos Papadopoulos,

1
@AlecosPapadopoulos: hai ragione, anche se "flirtare con livelli convenzionali di significatività" e "avvicinarsi al significato statistico" meritano menzioni d'onore. "Quasi significativo" è forse un vincitore in un'altra categoria.
Scortchi - Ripristina Monica

4
In effetti i primi due sono di vero spirito cinematografico, il primo del film "Statistical Gigolo" (chi altro flirrebbe con un livello convenzionale ?), Mentre il secondo del film "Dying on the Tail", dove vediamo l'avvoltoio minaccioso (valore p) in bilico sull'eroe morente (significato statistico).
Alecos Papadopoulos,

1
Personalmente, abbandonerei la parola "significativo" nel mio fraseggio e chiamerei p = 0,06 "abbastanza interessante". Giustamente o erroneamente, quando ho incontrato per la prima volta valori p all'interno di un corso Six Sigma, l'istruttore ha suggerito che per 0,05 <= 0,1 l'etichetta giusta era "più dati richiesti" (basato su un'impostazione industriale in cui è difficile acquisire ulteriori punti dati , così completamente diverso da qualsiasi scenario di "Big Data"
Robert de Graaf

6

Dal mio punto di vista, il problema si riduce a cosa significhi effettivamente eseguire un test di significatività. Il test di significatività è stato concepito come mezzo per prendere la decisione di rifiutare l'ipotesi nulla o di non respingerla. Fisher stesso ha introdotto la famigerata regola 0.05 per prendere quella (arbitraria) decisione.

Fondamentalmente, la logica del test di significatività è che l'utente deve specificare un livello alfa per rifiutare l'ipotesi nulla (convenzionalmente 0,05) prima di raccogliere i dati . Dopo aver completato il test di significatività, l'utente rifiuta il valore null se il valore p è inferiore al livello alfa (o non riesce a rifiutarlo altrimenti).

Il motivo per cui non puoi dichiarare un effetto altamente significativo (diciamo, a livello di 0,001) è perché non puoi trovare prove più forti di quelle che hai deciso di trovare. Pertanto, se imposti il ​​livello alfa a 0,05 prima del test, puoi trovare prove solo al livello 0,05, indipendentemente da quanto piccoli siano i tuoi valori p. Allo stesso modo, parlare di effetti che sono "in qualche modo significativi" o "significato in avvicinamento" non ha molto senso perché hai scelto questo criterio arbitrario di 0,05. Se interpretate la logica del test di significatività alla lettera, qualcosa di più grande di 0,05 non è significativo.

Concordo sul fatto che termini come "avvicinarsi al significato" sono spesso usati per migliorare le prospettive di pubblicazione. Tuttavia, non credo che gli autori possano essere biasimati per questo perché l'attuale cultura editoriale in alcune scienze si basa ancora pesantemente sul "santo graal" di 0,05.

Alcuni di questi problemi sono discussi in:

Gigerenzer, G. (2004). Statistiche insensate. The Journal of Socio-Economics, 33 (5), 587-606.

Royall, R. (1997). Prove statistiche: un paradigma della verosimiglianza (Vol. 71). CRC premere.


1
Stai mescolando la filosofia scientifica della pesca con l'approccio di Neyman / Pearson se aggiungi un livello alfa ai test di significatività di Fisher.
RBirkelbach,

5

Questa pendenza scivolosa richiama il framework Fisher vs Neyman / Pearson per i test di significatività a ipotesi nulla (NHST). Da un lato, si vuole fare una valutazione quantitativa di quanto sia improbabile un risultato sotto l'ipotesi nulla (ad es. Dimensioni dell'effetto). D'altra parte, alla fine della giornata, vuoi una decisione discreta sul fatto che i tuoi risultati siano o non siano probabilmente dovuti al solo caso. Quello che abbiamo finito è un tipo di approccio ibrido che non è molto soddisfacente.

Nella maggior parte delle discipline, la p convenzionale per significatività è fissata a 0,05, ma in realtà non esiste alcun motivo per cui ciò debba essere così. Quando rivedo un articolo, non ho assolutamente alcun problema con un autore che chiama 0,06 significativo, o addirittura 0,07, a condizione che la metodologia sia valida e l'intera immagine, comprese tutte le analisi, le figure, ecc. Raccontino una storia coerente e credibile. Il punto in cui si verificano problemi è quando gli autori tentano di creare una storia con dati banali con effetti di piccole dimensioni. Al contrario, potrei non "credere" completamente che un test sia praticamente significativo anche quando raggiunge un significato p <0,05 convenzionale. Un mio collega una volta disse: "Le tue statistiche dovrebbero semplicemente eseguire il backup di ciò che è già evidente nelle tue figure".

Detto questo, penso che Vasilev abbia ragione. Dato il rotto sistema di pubblicazione, devi praticamente includere i valori di p, e quindi devi usare la parola "significativo" per essere preso sul serio, anche se richiede aggettivi come "marginalmente" (che preferisco). Puoi sempre combatterlo nella revisione tra pari, ma devi prima arrivarci.


5

La differenza tra due valori p in sé non è in genere significativa. Quindi, non importa se il tuo valore p è 0,05, 0,049, 0,051 ...

Per quanto riguarda i valori di p come misura della forza dell'associazione: un valore di p non è direttamente una misura della forza dell'associazione. Un valore p è la probabilità di trovare dati estremi o più estremi dei dati che hai osservato, dato che si ipotizza che il parametro sia 0 (se uno è interessato all'ipotesi nulla - vedi il commento di Nick Cox). Tuttavia, questa non è spesso la quantità a cui il ricercatore è interessato. Molti ricercatori sono piuttosto interessati a rispondere a domande come "qual è la probabilità che il parametro sia maggiore di un valore di cut-off scelto?" Se questo è ciò che ti interessa, devi incorporare ulteriori informazioni preliminari nel tuo modello.


6
Sono d'accordo con lo spirito di questo, ma la piccola stampa come sempre ha bisogno di una totale vigilanza. "dato che si assume che il parametro sia 0": spesso, ma non sempre. I valori P possono essere calcolati anche per altre ipotesi. Inoltre, per "assunto" leggi "ipotizzato".
Nick Cox,

Hai perfettamente ragione: modificherò la mia risposta!
RBirkelbach,

3

p<αp>α(non forza dell'effetto, ovviamente). Per un tale "continuualista", "quasi significativo" è un modo sensato per descrivere un risultato con un valore p moderato. Il problema sorge quando le persone mescolano queste due filosofie - o peggio, non sono consapevoli che entrambe esistono. (A proposito - le persone spesso assumono queste mappe in modo pulito su Neyman / Pearson e Fisher, ma non lo fanno; quindi i miei termini, ammettibilmente, goffi per loro). Maggiori dettagli su questo in un post di blog su questo argomento qui: https://scientistseessquirrel.wordpress.com/2015/11/16/is-nearly-significant-ridiculous/


1

Tendo a pensare che dire qualcosa di statisticamente significativo non sia corretto dal punto di vista tecnico. Una volta impostato il livello di tolleranza, viene impostato il test statistico di significatività. Devi tornare all'idea delle distribuzioni di campionamento. Se il tuo livello di tolleranza è di 0,05 e ti capita di ottenere un valore p di 0,053, è solo per caso che il campione utilizzato ha prodotto quella statistica. Si potrebbe benissimo ottenere un altro campione che potrebbe non produrre gli stessi risultati. Credo che la probabilità che si verifichi si basi sul livello di tolleranza impostato e non sulla statistica del campione. Ricordare che si stanno testando campioni con un parametro di popolazione e i campioni hanno una propria distribuzione di campionamento. Quindi, secondo me, o qualcosa è statisticamente significativo o non lo è.


0

[0,1]H0p>α

H1

Vedi ad esempio Wikipedia .


Non ti seguo del tutto. Sì, in qualsiasi distribuzione continua, la probabilità di ottenere un risultato esattamente di 0,051 è uguale alla probabilità di ottenere un risultato esattamente di 1 - è zero. Ma il test delle ipotesi esamina la probabilità di vedere un valore almeno estremo come quello osservato. Troverai sempre un valore p estremo almeno quanto 1, ma è molto meno probabile vedere un valore p estremo come 0,051. Cosa rende questa differenza "insignificante"?
Nuclear Wang,

Sotto il valore nullo è altrettanto probabile osservare un valore p nell'intervallo [0,05,0,051] come è osservare un valore p nell'intervallo [0,999,1]. Osservare un valore p più vicino alla soglia non è più una prova contro lo 0 come osservare qualsiasi altro valore p al di fuori dell'area di rifiuto.
snaut

Alcuni chiamano un valore ap di 0,05 significativo, altri usano 0,01 o 0,1 come soglia. Quindi, tra 3 ricercatori che fanno la stessa analisi e trovano un valore p di 0,03, due potrebbero definirlo significativo e uno no. Se tutti trovano un valore p di 0,91, nessuno lo chiamerà significativo. Un valore p più vicino alla soglia significa che più individui riterranno che vi siano prove sufficienti per respingere il valore nullo. Non vedo perché p = 0,051 e p = 1 dovrebbero essere indistinguibili in termini di supporto per H1 - alcune persone supporteranno giustificatamente H1 con p = 0,051; nessuno lo farà con p = 1.
Nuclear Wang,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.