Raccolgo campioni molto grandi (> 1.000.000) di dati categorici ogni giorno e voglio vedere i dati "significativamente" diversi tra i giorni per rilevare errori nella raccolta dei dati.
Ho pensato che usare un test di buona misura (in particolare un test G) sarebbe una buona misura (gioco di parole) per questo. La distribuzione prevista è data dalla distribuzione del giorno precedente.
Ma poiché le dimensioni dei miei campioni sono così grandi, il test ha una potenza molto elevata e produce molti falsi positivi. Vale a dire, anche una minima fluttuazione giornaliera darà un valore p quasi zero.
Ho finito per moltiplicare la mia statistica test per una costante (0,001), che ha la bella interpretazione di campionare i dati a quel ritmo. Questo articolo sembra concordare con questo approccio. Dicono che:
Chi square è il più affidabile con campioni tra circa 100 e 2500 persone
Sto cercando alcuni commenti più autorevoli su questo. O forse alcune soluzioni alternative ai falsi positivi quando si eseguono test statistici su grandi set di dati.