Un valore p di 0,04993 è sufficiente per respingere l'ipotesi nulla?


20

In un test di significatività statistica dei ranghi firmati Wilcoxon, ci siamo imbattuti in alcuni dati che producono un valore di . Con una soglia di , questo risultato è sufficiente per respingere l'ipotesi nulla, o è più sicuro dire che il test era inconcludente, poiché se arrotondiamo il valore p a 3 cifre decimali diventa ?p0.04993p<0.050.050


24
0,04993 <0,05, quindi è appena inferiore. Il tuo istinto è buono che nessun valore P può essere considerato attendibile con diversi decimali, ma se il programma dice meno di 0,05, le persone generalmente lo prendono come consegnato. Il vero problema qui è fare un feticcio di test di significatività a livello fisso in modo che <0,05 significhi "reale", "pubblicabile", "causa di felicità" e il contrario significa "illusorio", "non pubblicabile", "causa di miseria" . La maggior parte dei buoni testi introduttivi sulle statistiche ne discutono in una certa misura. Uno buono è Freedman, Pisani, Purves, Statistics . New York: WW Norton, qualsiasi edizione.
Nick Cox,

8
Devi chiederti quale sarebbe la tua decisione se il valore p fosse 0,051? e se fosse 0,049? Prenderesti decisioni diverse? Perché?
AlefSin,

2
Grazie per i vostri commenti. Nel nostro caso non stiamo valutando se i dati siano pubblicabili o meno, ecc ... Stiamo semplicemente considerando di fare una dichiarazione nel documento sul significato statistico di questo risultato e vogliamo assicurarci che la nostra affermazione non sia errata o imprecisa .
Islam El-Nabarawy,

3
Segnalare P = 0,04993 è ciò che mi viene in mente. È difficile prevedere i commenti dei revisori o dei redattori. Se si desidera arrotondare, specificare una convenzione di arrotondamento coerente è sempre una buona idea e ampiamente accettabile. Alcune persone dovrebbero arrotondare a 3 dp e potrebbero anche usare una sorta di convenzione da protagonista, quindi riportare 0,050 (3 dp) e interpretarlo come <0,05 sono coerenti.
Nick Cox,

2
Non so ... forse dovremmo eseguire un doppio bootstrap e calcolare un intervallo di confidenza per il valore ! In tutta onestà, riferirei: "I risultati erano significativi al limite, 0,049 < p < 0,050 ". A quel punto, stai spaccando i peli e tutti improvvisamente ricordano che 1/20 probabilità di un falso positivo sono un modo completamente arbitrario per far funzionare la scienza. p0.049<p<0.050
AdamO,

Risposte:


21

Ci sono due problemi qui:

1) Se stai facendo un test di ipotesi formale (e se stai andando a citare un valore p nel mio libro che già sei), qual è la regola del rifiuto formale?

Quando si confrontano le statistiche dei test con i valori critici, il valore critico si trova nella regione di rifiuto . Mentre questa formalità non importa molto quando tutto è continuo, importa quando la distribuzione della statistica test è discreta.

Di conseguenza, quando si confrontano i valori p e i livelli di significatività, la regola è:

          Rifiuta se pα

Nota che, anche se hai arrotondato il tuo valore p fino a 0,05, anche se il valore p era esattamente 0,05, formalmente, dovresti comunque rifiutare .

2) In termini di "cosa ci dice il nostro valore p", supponendo che tu possa persino interpretare un valore p come "prova contro il nulla" (diciamo che l'opinione su questo è un po 'divisa), 0,0499 e 0,0501 non lo sono dire davvero cose diverse sui dati (le dimensioni dell'effetto tenderanno ad essere quasi identiche).

Il mio suggerimento sarebbe di (1) rifiutare formalmente il null, e forse sottolineare che anche se fosse esattamente 0,05 dovrebbe essere comunque respinto; (2) Si noti che non c'è niente di particolarmente speciale su α=0.05 ed è molto vicino a quello borderline - anche una soglia di significatività leggermente più piccolo non porterebbe al rifiuto.


2
Ma, ancora una volta, puoi usare argomenti molto simili per non rifiutare null. Non c'è nulla di speciale su 0,05, se avessi scelto 0,06 come limite probabilmente non porteresti la domanda, ma la situazione non sarebbe molto diversa ... Piuttosto in queste situazioni vorrei chiedere: "qual è il reale- significato di vita di questo risultato? ". Ad esempio, se si trattasse di un esperimento biologico, vorrei cercare il significato biologico del risultato specifico, riportare il valore p così com'è e piuttosto commentare la biologia.
nico,

@nico questo era già il punto del mio articolo (2); discute contro l'eccessiva dipendenza dall'approccio formale in (1)
Glen_b -Reinstate Monica

Grazie Glen e Nico. Questa parte dei dati era secondaria ai nostri esperimenti, quindi abbiamo finito per riportare il valore così com'è. In ogni caso, lo segnerò come risposta accettata. Grazie ancora a tutti coloro che hanno partecipato con risposte o commenti.
Islam El-Nabarawy,

5

Si trova negli occhi di chi guarda.

αα=0.05

Quindi si riduce davvero a ciò che AlefSin ha commentato prima. Non ci può essere una "risposta corretta" alla tua domanda. Segnala ciò che hai, arrotondato o meno.

Esiste una vasta letteratura sul "significato dell'importanza"; si veda ad esempio il recente articolo di uno dei principali statistici tedeschi Walter Krämer su "Il culto del significato statistico - Cosa dovrebbero e non dovrebbero fare gli economisti per far parlare i loro dati", Schmollers Jahrbuch 131 , 455-468, 2011.


-6

p=0.05

Il problema chiave è questa frase: "Ci siamo imbattuti in alcuni dati ...".

pp

Esiste un nome per questo tipo di malfunzionamento statistico: dragaggio dei dati . Sono ambivalente nel riferirlo nel documento come un'ipotesi interessante; ha qualche motivo fisico che ti aspetti che tenga?

Vi è, tuttavia, una via d'uscita. Forse avete deciso a priori per eseguire proprio questa una prova solo su questo un insieme di dati. L'hai scritto sul tuo quaderno di laboratorio, di fronte a qualcuno in modo da poterlo dimostrare in seguito. Quindi hai fatto il test.

p=0.05


14
Ciò può dipendere eccessivamente da una particolare scelta del fraseggio; stai assumendo piuttosto da quella che potrebbe essere semplicemente una cattiva scelta di parole - non tutti qui hanno l'inglese come prima lingua. Vale sicuramente la pena sollevarlo come un potenziale problema, ma affermare semplicemente le cose in modo così calvo ("assolutamente no") implica che tu sappia più di quello che possiamo dire da ciò che è qui. (Inoltre, il riferimento a un "quaderno di laboratorio" implica che l'OP sta facendo un lavoro in un laboratorio. Dubito che sia così. Di nuovo, sottintendi di sapere di più di quello che abbiamo qui.)
Glen_b -Reinstate Monica

10
Mike McCoy, grazie per la tua risposta, ma temo che in questo caso Glen_b abbia ragione. Non sono di madrelingua inglese, e mentre mi sforzo di scrivere e parlare fluentemente quanto le mie capacità lo consentono, l'uso e la connotazione continuano a sfuggirmi. Quindi, in questo caso particolare, non abbiamo provato cose diverse finché non abbiamo trovato qualcosa di significativo. In realtà, quello che stavamo provando a dimostrare è che non ci sono stati aumenti statisticamente significativi di un certo valore di errore, e in un caso particolare abbiamo scoperto che l'errore era effettivamente ridotto, e quando abbiamo eseguito il test W, è qui che abbiamo ottenuto lo 0,0499 .
Islam El-Nabarawy,

1
Mike, inoltre, non ho riscontrato alcun problema nella formulazione della domanda. E sembra che nessun altro abbia visto segni di ficcanaso di dati, mining, dragaggio, qualunque cosa qui ... E sicuramente sta negli occhi di chi guarda. Non esiste un fatto matematico, ma una regola di decisione scelta dallo statistico. Rileggi quello che ho scritto AlefSin, Glen nel suo punto (2).
Skullduggery,

3
@ IslamEl-Nabarawy Se si desidera stabilire l'equivalenza / mancanza di differenza, si hanno molti altri problemi oltre a come interpretare un valore vicino alla soglia o al potenziale snooping dei dati. Trovare un valore p leggermente superiore a 0,05 (o qualunque livello di errore tu scelga) non è assolutamente sufficiente. Cerca "test di equivalenza" qui e altrove o fai una domanda specifica in merito perché è un problema completamente diverso.
Galà,

4
"Tuttavia, c'è una via d'uscita. Forse hai deciso a priori di eseguire solo questo test su questo solo set di dati. L'hai scritto sul tuo quaderno di laboratorio, di fronte a qualcuno in modo da poterlo provare in seguito. Quindi hai fatto il tuo test. Se lo hai fatto, il tuo risultato è valido a livello p = 0,05 e puoi eseguirne il backup su scettici come me. Altrimenti, scusa, non è un risultato statisticamente significativo " Parla di colpevole fino a prova innocente. Quindi, in assenza di prove forensi che escludono la disonestà accademica, un'analisi è inutile? Sheesh.
GoF_Logistic
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.