Qual è la differenza tra i punteggi Z e i valori p?


11

Negli algoritmi del motivo di rete, sembra abbastanza comune restituire sia un valore p che un punteggio Z per una statistica: "La rete di input contiene X copie del sottografo G". Un sottografo è considerato un motivo se soddisfa

  • valore p <A,
  • Punteggio Z> B e
  • X> C, per alcuni A, B e C. definiti dall'utente (o definiti dalla comunità)

Questo motiva la domanda:

Domanda : quali sono le differenze tra il valore p e il punteggio Z?

E la domanda secondaria:

Domanda : ci sono situazioni in cui il valore p e il punteggio Z della stessa statistica potrebbero suggerire ipotesi opposte? La prima e la seconda condizione sopra elencate sono essenzialmente le stesse?

Risposte:


9

Direi, in base alla tua domanda, che non c'è differenza tra i tre test. Questo è nel senso che puoi sempre scegliere A, B e C in modo tale che la stessa decisione sia arrivata indipendentemente dal criterio che stai usando. Sebbene sia necessario che il valore p sia basato sulla stessa statistica (ovvero il punteggio Z)

Per utilizzare il punteggio Z, si presume che sia la media che la varianza siano note e la distribuzione è considerata normale (o asintoticamente / approssimativamente normale). Supponiamo che il criterio del valore p sia il solito 5%. Poi abbiamo:μσ2

p=Pr(Z>z)<0.05Z>1.645Xμσ>1.645X>μ+1.645σ

Quindi abbiamo il triplo che rappresentano tutti gli stessi cut-off.(0.05,1.645,μ+1.645σ)

Si noti che la stessa corrispondenza si applicherà al test t, anche se i numeri saranno diversi. Anche il test a due code avrà una corrispondenza simile, ma con numeri diversi.


Grazie per quello! (e grazie anche agli altri risponditori).
Douglas S. Stones,

8

Un punteggio descrive la tua deviazione dalla media in unità di deviazione standard. Non è esplicito se si accetta o rifiuta la tua ipotesi nulla.Z

Un valore è la probabilità che sotto l'ipotesi nulla potremmo osservare un punto estremo quanto la tua statistica. Questo ti dice esplicitamente se rifiuti o accetti la tua ipotesi nulla data una dimensione del test .pα

Considera un esempio in cui e l'ipotesi nulla è . Quindi osservi . Il tuo score è 5 (che ti dice solo quanto ti allontani dalla tua ipotesi nulla in termini di ) e il tuo valore è 5.733e-7. Per una sicurezza del 95%, avrai una dimensione del test e poiché respingerai l'ipotesi nulla. Ma per ogni dato statistico, ci dovrebbero essere alcuni equivalenti e tali che i test siano gli stessi.XN(μ,1)μ=0x1=5Zσpα=0.05p<αAB


3
@Gary - un valore p non ti dice di rifiutare o non più di un punteggio Z. Sono solo numeri. È solo la regola della decisione che determina l'accettazione o il rifiuto. Questa regola di decisione potrebbe ugualmente essere definita in termini di punteggio Z (ad esempio la regola o )2σ3σ
Probislogic

@probabilityislogic Sono d'accordo con te. In effetti, potresti costruire alcuni test basati sulla soglia del punteggio ma non ti consente di definire esplicitamente una dimensione del test in senso classico (cioè in termini di probabilità). Questo tipo di criteri potrebbe creare problemi se la tua distribuzione ha code spesse. Quando costruisci un test, definisci esplicitamente una dimensione del test e quindi il valore ti dice immediatamente se accetti o rifiuti, che è il punto che stavo cercando di fare. Zp
Gary

@gary - non proprio, perché il valore p non fa alcun riferimento alle alternative. Quindi non può essere utilizzato per confrontare direttamente le alternative. Ad esempio, prendi vs . Il valore p per rimane lo stesso . Quindi dici "rifiuta il null" che significa "accetta l'alternativa" e dichiara . Ma questo è assurdo, nessuno lo farebbe, ma la regola del valore p che usi qui lo fa. In altre parole, la regola p-value hai descritto non è invariante rispetto a quello che viene chiamato il "ipotesi nulla" (risoluzione venire)H0:μ=0HA:μ=1H05×107μ=1
probabilityislogic

(seguito) La risoluzione dell'apparente assurdità è notare che il valore p non è un test "assoluto", ma relativo, definito con un'ipotesi alternativa implicita. In questo caso, l'alternativa implicita è . Puoi vederlo notando che se calcolo il valore p di ottengo , che è più piccolo del valore p per . Ora in questo esempio, l '"alternativa implicita" è facile da trovare per intuizione, ma è molto più difficile trovarla in problemi più complessi, in cui i parametri di disturbo o nessuna statistica sufficiente. Himp:μ=5HA1×109H0
Probislogic

1
@Gary - il valore p non è più rigoroso solo perché è una probabilità. È una trasformazione monotona da 1 a 1 del punteggio Z. qualsiasi "rigore" che è posseduto dal valore p è anche posseduto dal punteggio Z. Sebbene se si utilizza un test su due lati, l'equivalente è il valore assoluto del punteggio Z. E per confrontare con il valore nullo, devi adottare un approccio "minimax": scegliere l'ipotesi acuta che è maggiormente supportata dai dati e coerente con . A meno che tu non possa dimostrare come calcolareH1:μ0H1P(X|μ1)
Probislogic

6

p -value indica quanto sia improbabile la statistica. -score indica quanto è distante dalla media. Potrebbe esserci una differenza tra loro, a seconda della dimensione del campione.z

Per campioni di grandi dimensioni, anche improbabili piccole deviazioni dalla media. Vale a dire il valore può essere molto piccolo anche per un punteggio basso . Al contrario, per piccoli campioni non sono improbabili anche grandi deviazioni. Vale a dire un grande punteggio non significherà necessariamente un piccolo valore .pzzp


se la dimensione del campione è grande, la deviazione standard sarà piccola, quindi il punteggio Z sarà alto. Penso che potresti scoprirlo se provassi un esempio numerico.
Probislogic

1
Non proprio. Supponiamo di campionare da N (0, 1). Quindi il tuo std sarà circa 1 indipendentemente dalle dimensioni del campione. Ciò che si riduce è l'errore standard della media, non la deviazione standard. i valori p sono basati su SEM, non su std.
SheldonCooper

Il punteggio Z è (media osservata) / (deviazione standard). Ma la media e la deviazione standard sono della statistica osservata, non della popolazione da cui sono state tratte componenti. La mia terminologia debole è stata catturata qui. Tuttavia, se si sta verificando la media, la deviazione standard appropriata nel punteggio Z è l'errore standard, che si riduce alla stessa velocità del valore p.
Probislogic
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.