Sto esaminando una parte del mio set di dati contenente 46840 valori doppi che vanno da 1 a 1690 raggruppati in due gruppi. Al fine di analizzare le differenze tra questi gruppi, ho iniziato esaminando la distribuzione dei valori al fine di scegliere il test giusto.
Seguendo una guida ai test per la normalità, ho realizzato un qqplot, un istogramma e un boxplot.
Questa non sembra essere una distribuzione normale. Poiché la guida afferma in qualche modo correttamente che un esame puramente grafico non è sufficiente, voglio anche testare la distribuzione per la normalità.
Considerando la dimensione del set di dati e la limitazione del test shapiro-wilks in R, come dovrebbe essere testata la distribuzione data per la normalità e considerando la dimensione del set di dati, è anche affidabile? ( Vedi risposta accettata a questa domanda )
Modificare:
Il limite del test Shapiro-Wilk a cui mi riferisco è che il set di dati da testare è limitato a 5000 punti. Per citare un'altra buona risposta su questo argomento:
Un ulteriore problema con il test di Shapiro-Wilk è che quando gli dai più dati, le probabilità che l'ipotesi nulla venga respinta aumentano. Quindi ciò che accade è che per grandi quantità di dati possono essere rilevate anche deviazioni molto piccole dalla normalità, portando al rifiuto dell'ipotesi nulla, sebbene a fini pratici i dati siano più che normali.
[...] Fortunatamente shapiro.test protegge l'utente dall'effetto sopra descritto limitando la dimensione dei dati a 5000.
Per quanto riguarda il motivo per cui sto testando la distribuzione normale in primo luogo:
Alcuni test di ipotesi presuppongono una normale distribuzione dei dati. Voglio sapere se posso usare questi test o meno.