Sto cercando di elaborare una metrica per misurare la non uniformità di una distribuzione per un esperimento che sto eseguendo. Ho una variabile casuale che dovrebbe essere uniformemente distribuita nella maggior parte dei casi e mi piacerebbe essere in grado di identificare (e possibilmente misurare il grado di) esempi di set di dati in cui la variabile non è distribuita uniformemente entro un certo margine.
Un esempio di tre serie di dati ciascuna con 10 misurazioni che rappresentano la frequenza del verificarsi di qualcosa che sto misurando potrebbe essere qualcosa del genere:
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
Mi piacerebbe essere in grado di distinguere le distribuzioni come c da quelle come aeb, e misurare la deviazione di c da una distribuzione uniforme. Allo stesso modo, se esiste una metrica per quanto sia uniforme una distribuzione (deviazione standard vicina allo zero?), Posso forse usarla per distinguere quelle con elevata varianza. Tuttavia, i miei dati potrebbero avere solo uno o due valori anomali, come nell'esempio c sopra, e non sono sicuro che sarà facilmente rilevabile in quel modo.
Posso hackerare qualcosa per farlo nel software, ma sto cercando metodi / approcci statistici per giustificarlo formalmente. Ho preso una lezione anni fa, ma le statistiche non sono la mia area. Sembra qualcosa che dovrebbe avere un approccio ben noto. Mi dispiace se uno di questi è completamente osseo. Grazie in anticipo!