Test di set di dati di grandi dimensioni per la normalità: come ed è affidabile?


12

Sto esaminando una parte del mio set di dati contenente 46840 valori doppi che vanno da 1 a 1690 raggruppati in due gruppi. Al fine di analizzare le differenze tra questi gruppi, ho iniziato esaminando la distribuzione dei valori al fine di scegliere il test giusto.

Seguendo una guida ai test per la normalità, ho realizzato un qqplot, un istogramma e un boxplot.

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine

Questa non sembra essere una distribuzione normale. Poiché la guida afferma in qualche modo correttamente che un esame puramente grafico non è sufficiente, voglio anche testare la distribuzione per la normalità.

Considerando la dimensione del set di dati e la limitazione del test shapiro-wilks in R, come dovrebbe essere testata la distribuzione data per la normalità e considerando la dimensione del set di dati, è anche affidabile? ( Vedi risposta accettata a questa domanda )

Modificare:

Il limite del test Shapiro-Wilk a cui mi riferisco è che il set di dati da testare è limitato a 5000 punti. Per citare un'altra buona risposta su questo argomento:

Un ulteriore problema con il test di Shapiro-Wilk è che quando gli dai più dati, le probabilità che l'ipotesi nulla venga respinta aumentano. Quindi ciò che accade è che per grandi quantità di dati possono essere rilevate anche deviazioni molto piccole dalla normalità, portando al rifiuto dell'ipotesi nulla, sebbene a fini pratici i dati siano più che normali.

[...] Fortunatamente shapiro.test protegge l'utente dall'effetto sopra descritto limitando la dimensione dei dati a 5000.

Per quanto riguarda il motivo per cui sto testando la distribuzione normale in primo luogo:

Alcuni test di ipotesi presuppongono una normale distribuzione dei dati. Voglio sapere se posso usare questi test o meno.


11
Non ha senso test; ogni test di qualsiasi uso, un livello di significatività ragionevole verrà chiaramente respinto. Qualunque guida tu stia leggendo, ti ha ingannato. Cosa intendi esattamente con "affidabile". A quale 'limitazione' dello Shapiro-Wilk ti riferisci? Sono quasi d'accordo con l'affermazione nella risposta a cui ti colleghi ... "Non ho mai incontrato una situazione in cui un normale test è la cosa giusta da fare" (ho visto almeno una volta una situazione in cui penso che sia il cosa giusta da fare, ma la gente lo fa quasi sempre per cattive ragioni).
Glen_b

@Glen_b: per inciso, l'altro giorno mi sono ritrovato a usare Shapiro-Wilk per quantificare le prove contro il nulla, che qualcuno su Academia aveva erroneamente ritenuto più grande di quanto non fosse da un campione di voti. Mi chiedo se fosse un uso difendibile.
Nick Stauner,

@NickStauner la mia risposta è cresciuta troppo a lungo per un singolo commento e non voglio dirottare questa domanda con una serie di commenti sul tuo post lì. Possibilità: parliamo in chat o pubblichi una domanda al riguardo (a cui potrei pubblicare una risposta estesa), oppure ne discutiamo in qualche altro modo, come l'e-mail.
Glen_b

Risposte:


14

Non vedo perché ti preoccupi. Chiaramente non è normale - in questo caso, l'esame grafico mi sembra sufficiente. Hai un sacco di osservazioni da quella che sembra essere una bella distribuzione gamma pulita. Basta andare con quello. se è necessario - consiglierò una distribuzione di riferimento.

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
inserisci qui la descrizione dell'immagine

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

Come dico sempre, "Vedi I test della normalità sono" essenzialmente inutili "? ", In particolare la risposta di @ MånsT , che sottolinea che analisi diverse hanno sensibilità diverse a diverse violazioni delle ipotesi di normalità. Se la tua distribuzione è simile alla mia come sembra, probabilmente hai inclinazione e kurtosi ("eccesso di curtosi" ). Questo potrebbe essere un problema per molti test. Se non riesci a trovare un test con ipotesi parametriche più appropriate o nessuna, potresti forse trasformare i tuoi dati o almeno condurre un'analisi di sensibilità di qualsiasi analisi tu abbia in mente.1.45.92.9

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.