La trama QQ sembra normale ma il test di Shapiro-Wilk dice il contrario


12

In R, ho un campione di 348 misure e voglio sapere se posso supporre che sia normalmente distribuito per test futuri.

Sostanzialmente seguendo un'altra risposta dello stack , sto guardando il diagramma della densità e il diagramma QQ con:

plot(density(Clinical$cancer_age))

inserisci qui la descrizione dell'immagine

qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)

inserisci qui la descrizione dell'immagine

Non ho una forte esperienza in Statistica, ma sembrano esempi di normali distribuzioni che ho visto.

Quindi sto eseguendo il test Shapiro-Wilk:

shapiro.test(Clinical$cancer_age)

> Shapiro-Wilk normality test

data:  Clinical$cancer_age
W = 0.98775, p-value = 0.004952

Se lo interpreto correttamente, mi dice che è sicuro rifiutare l'ipotesi nulla, che è che la distribuzione è normale.

Tuttavia, ho riscontrato due messaggi Stack ( qui e qui ), che compromettono fortemente l'utilità di questo test. Sembra che se il campione è grande (348 è considerato grande?), Dirà sempre che la distribuzione non è normale.

Come dovrei interpretare tutto ciò? Devo attenermi al diagramma QQ e presumere che la mia distribuzione sia normale?


4
La trama qq sembra mostrare una deviazione dal normale nelle code. Inoltre, qualsiasi utile test di bontà di adattamento verrà rifiutato in campioni molto grandi semplicemente perché verranno rilevati piccoli scostamenti dalla normalità. Non è una critica al test di Shapiro - Wilk ma piuttosto una caratteristica del test di bontà di adattamento.
Michael R. Chernick,

4
Perché assumere una distribuzione normale è importante per te? Cosa intendi fare sulla base di tale presupposto?
Roland,

6
Solo per aggiungere ai commenti di Roland- molti test che assumono formalmente una distribuzione normale sono in realtà abbastanza robusti con lievi deviazioni dalla normalità (ad esempio perché la distribuzione della statistica del test è asintoticamente corretta). Se riesci a capire cosa intendi fare, potresti ottenere risposte più utili.
P.Windridge,

1
@mdewey, osservazione nitida! Non è l'età all'incidenza, ma l '"età" del tumore misurata dalla metilazione del DNA.
francoiskroll,

2
Penso che varrebbe la pena esaminare il piccolo numero di osservazioni estreme solo per verificare se si tratta di errori di misurazione.
mdewey,

Risposte:


11

Non hai problemi qui. I tuoi dati possono essere leggermente non normali, ma è abbastanza normale che non dovrebbe creare alcun problema. Molti ricercatori fanno test statistici assumendo la normalità con dati molto meno normali di quelli che hai.

Mi fiderei dei tuoi occhi. I grafici di densità e QQ sembrano ragionevoli, nonostante qualche lieve inclinazione positiva sulle code. A mio avviso, non è necessario preoccuparsi della non normalità per questi dati.

Hai una N di circa 350 e i valori di p dipendono molto dalle dimensioni del campione. Con un campione ampio, quasi tutto può essere significativo. Questo è stato discusso qui.

Ci sono alcune risposte incredibili su questo post molto popolare che fondamentalmente arrivano alla conclusione che condurre un test di significatività a ipotesi nulla per la non normalità è "essenzialmente inutile". La risposta accettata su quel post è una dimostrazione favolosa che, anche quando i dati sono stati generati da un processo quasi gaussiano, una dimensione del campione abbastanza elevata rende significativo il test non normale.


Siamo spiacenti, mi sono reso conto che ho collegato a un post che hai menzionato nella tua domanda originale. La mia conclusione è ancora valida, tuttavia: i tuoi dati non sono così non normali da creare problemi.


Solo perché some.researchers è molto sciatto non significa che puoi essere un po 'sciatto :). Tuttavia sono d'accordo con il fatto che molti test statistici che assumono formalmente la normalità sono in realtà abbastanza tolleranti rispetto a ciò che si nutre di
P.Windridge,

2
"Solo perché alcuni.researchers sono molto sciatti non significa che puoi essere un po 'sciatto :)" Punto giusto; è stata una brutta discussione da parte mia. "Tuttavia, sono d'accordo con il fatto che molti test statistici che assumono formalmente la normalità sono in realtà abbastanza tolleranti nei confronti di ciò che li alimenta." Si Certamente. Qualunque professore di quantita 'abbia mai avuto, ha guardato trame QQ come questa e ha detto: "Sì, va bene."
Mark White,

4

La tua distribuzione non è normale. Guarda le code (o la loro mancanza). Di seguito è quello che ti aspetteresti da un normale diagramma QQ.

inserisci qui la descrizione dell'immagine

Fare riferimento a questo post su come interpretare vari grafici QQ.

Tieni presente che mentre una distribuzione potrebbe non essere tecnicamente normale, può essere abbastanza normale per qualificarsi per gli algoritmi che richiedono la normalità.


1
Di cosa stai parlando, ho eseguito 9 grafici qq normali da campioni direttamente da una distribuzione normale usando il codice set.seed (100) par (mfrow = c (3,3)) per (i in 1: 9) {x < - rnorm (350) qqnorm (x) qqline (x)} e trama (3,2) sembrano molto simili alla situazione di OP.
Josh,

1
In genere, non vuoi concentrarti sulle code perché saranno spesso strane, anche se code estremamente cattive ti daranno scarsi risultati. Vuoi davvero concentrarti sul mezzo.
Josh,

hai sbagliato Josh. si prega di fare appello a un test normale per verificare se l'ipotesi nulla di normalità è respinta.
riparazione

1
Hai ragione. Inizialmente ho letto il tuo post in quanto le trame qq non erano abbastanza normali e mi scuso.
Josh,

2
@Josh, al centro della distribuzione non importa quasi nulla per i test di ipotesi; sono le code che contano. Lo hai al contrario.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.