Quando è appropriata la trasformazione z di Fisher?


13

Voglio testare una correlazione del campione r per significatività, usando i valori p, cioè

H0:ρ=0,H1:ρ0.

Ho capito che posso usare la trasformata z di Fisher per calcolare questo

zobs=n32ln(1+r1r)

e trovare il valore p di

p=2P(Z>zobs)

utilizzando la distribuzione normale standard.

La mia domanda è: quanto grande dovrebbe essere n affinché questa sia una trasformazione appropriata? Ovviamente, n deve essere maggiore di 3. Il mio libro di testo non menziona alcuna restrizione, ma nella diapositiva 29 di questa presentazione si dice che n deve essere maggiore di 10. Per i dati che prenderò in considerazione, avrò qualcosa come 5n10 .


2
I pagina di wikipedia liste l'errore standard di che è dato da 1 / zobs doveNè la dimensione del campione. Quindi avrai bisogno di almeno 4 coppie complete. Non sono a conoscenza di restrizioni oltre a quelle relative alle dimensioni del campione. 1/N3N
COOLSerdash,

8
Non sono sicuro di quanto fidarsi di una presentazione di qualcuno che non sa scrivere il proprio nome universitario. Più seriamente, attenzione a tutti i consigli che implicano che le cose vanno bene al di sopra di una certa dimensione del campione e terribile altrimenti. È una questione di approssimazione della qualità che aumenta senza problemi con la dimensione del campione e anche a seconda della distribuzione dei dati. Un semplice consiglio è di essere molto cauti, tracciare tutto e fare un controllo incrociato con intervalli di confidenza avviati.
Nick Cox,

1
La diapositiva 17 descrive un test t per il caso speciale . ρ=0
whuber

Risposte:


8

Per domande come queste vorrei semplicemente eseguire una simulazione e vedere se i valori si comportano come mi aspetto. Il valore p è la probabilità di estrarre casualmente un campione che devia almeno tanto dall'ipotesi nulla quanto i dati osservati se l'ipotesi nulla è vera. Quindi se avessimo molti di questi campioni e uno di loro avesse un valore p di 0,04, allora ci aspetteremmo che il 4% di quei campioni abbia un valore inferiore a 0,04. Lo stesso vale per tutti gli altri possibili valori p .pppp

Di seguito è una simulazione in Stata. I grafici controllano se i valori misurano ciò che dovrebbero misurare, cioè mostrano quanto la percentuale di campioni con valori p è inferiore alla p nominaleppp discosta dal valore nominale . Come puoi vedere, questo test è alquanto problematico con un numero così piccolo di osservazioni. Che sia troppo problematico per la tua ricerca è il tuo giudizio.p

clear all
set more off

program define sim, rclass
    tempname z se
    foreach i of numlist 5/10 20(10)50 {
        drop _all
        set obs `i'
        gen x = rnormal()
        gen y = rnormal()
        corr x y 
        scalar `z'  = atanh(r(rho))
        scalar `se' = 1/sqrt(r(N)-3)
        return scalar p`i' = 2*normal(-abs(`z'/`se'))
    }
end

simulate p5 =r(p5)  p6 =r(p6)  p7  =r(p7)     ///
         p8 =r(p8)  p9 =r(p9)  p10 =r(p10)    ///
         p20=r(p20) p30=r(p30) p40 =r(p40)    ///
         p50=r(p50), reps(200000) nodots: sim 

simpplot p5 p6 p7 p8 p9 p10, name(small, replace) ///
    scheme(s2color) ylabel(,angle(horizontal)) 

inserisci qui la descrizione dell'immagine

simpplot p20 p30 p40 p50 , name(less_small, replace) ///
    scheme(s2color) ylabel(,angle(horizontal)) 

inserisci qui la descrizione dell'immagine


1
Prova a sottrarre 2,5 invece di 3 da :-). n
whuber

5

FWIW vedo la raccomandazione in Myers & Well (progetto di ricerca e analisi statistiche, seconda edizione, 2003, p. 492). La nota a piè di pagina afferma:N10

A rigor di termini, la trasformazione è distorta da una quantità r / ( 2 ( N - 1 ) ) : vedi Pearson e Hartley (1954, p. 29). Questo pregiudizio sarà generalmente trascurabile a meno che N sia piccolo e ρ sia grande, e lo ignoriamo qui.Zr/(2(N1))Nρ


3
Questa sembra una risposta per me.
gung - Ripristina Monica

1

zH0:ρ=0ρrzt approssimazione .

H0:ρ=ρ00ρ0nnα

Il punto di Nick è giusto: le approssimazioni e le raccomandazioni operano sempre in un'area grigia.

n(tα/2s/ϵ)2tsn(1.96s/ϵ)2


4
zzz

1
Mi dispiace, sono nuovo per il Fisher z-trasformare. Dovrei usarlo solo se voglio testareH0:ρ=ρ00? Il motivo del calcolo dei valori P è che desidero utilizzare il metodo Holm-Bonferroni per controllare il tasso di errore a livello familiare quando si effettuano confronti multipli. Dovrei piuttosto calcolare i valori P da uno studentetdistribuzione?
Gunnhild,

3
La domanda è nella direzione sbagliata, credo. Fisherzè un metodo migliore per gli intervalli di confidenza e per l'inferenza in generale. La maggior parte dei software, immagino, utilizza atcalcolo basato su test ρ=0. In caso di dubbio, potrebbe essere davvero importante mostrare se l'utilizzo di un metodo fa la differenza per i tuoi dati. Quindi, se i metodi concordano, non ci sono problemi.
Nick Cox,

1
Puoi leggere di più su Fisher ztrasformazione qui: stata-journal.com/article.html?article=pr0041
Maarten Buis

Ok, grazie @NickCox! @Lucozade, qual è ilε nel limite n?
Gunnhild,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.