Come si misura la non uniformità di una distribuzione?


28

Sto cercando di elaborare una metrica per misurare la non uniformità di una distribuzione per un esperimento che sto eseguendo. Ho una variabile casuale che dovrebbe essere uniformemente distribuita nella maggior parte dei casi e mi piacerebbe essere in grado di identificare (e possibilmente misurare il grado di) esempi di set di dati in cui la variabile non è distribuita uniformemente entro un certo margine.

Un esempio di tre serie di dati ciascuna con 10 misurazioni che rappresentano la frequenza del verificarsi di qualcosa che sto misurando potrebbe essere qualcosa del genere:

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

Mi piacerebbe essere in grado di distinguere le distribuzioni come c da quelle come aeb, e misurare la deviazione di c da una distribuzione uniforme. Allo stesso modo, se esiste una metrica per quanto sia uniforme una distribuzione (deviazione standard vicina allo zero?), Posso forse usarla per distinguere quelle con elevata varianza. Tuttavia, i miei dati potrebbero avere solo uno o due valori anomali, come nell'esempio c sopra, e non sono sicuro che sarà facilmente rilevabile in quel modo.

Posso hackerare qualcosa per farlo nel software, ma sto cercando metodi / approcci statistici per giustificarlo formalmente. Ho preso una lezione anni fa, ma le statistiche non sono la mia area. Sembra qualcosa che dovrebbe avere un approccio ben noto. Mi dispiace se uno di questi è completamente osseo. Grazie in anticipo!


Risposte:


18

Se non si hanno solo le frequenze ma i conteggi effettivi, è possibile utilizzare un test di bontà di adattamento per ciascuna serie di dati. In particolare, si desidera utilizzare il test per una distribuzione uniforme discreta . Questo ti dà un buon test , che ti permette di scoprire quali serie di dati probabilmente non sono state generate da una distribuzione uniforme, ma non fornisce una misura di uniformità.χ2

Esistono altri possibili approcci, come il calcolo dell'entropia di ogni serie: la distribuzione uniforme massimizza l'entropia, quindi se l'entropia è sospettosamente bassa si potrebbe concludere che probabilmente non si dispone di una distribuzione uniforme. Funziona come una misura di uniformità in un certo senso.

Un altro suggerimento sarebbe quello di utilizzare una misura come la divergenza di Kullback-Leibler , che misura la somiglianza di due distribuzioni.


Ho un paio di domande sulla tua risposta: 1. Perché affermi che il chi-quadrato non fornisce una misura di uniformità? Un test di adattamento con una distribuzione uniforme non è una misura di uniformità? 2. Come possiamo sapere quando dovremmo usare il chi-quadrato o l'entropia?
kanzen_master l'

@kanzen_master: immagino che la statistica chi-quadro possa essere vista come una misura di uniformità, ma presenta alcuni inconvenienti, come la mancanza di convergenza, la dipendenza dai contenitori collocati arbitrariamente, che il numero di conteggi attesi nelle celle necessita essere sufficientemente grandi, ecc. Quale misura / test usare è una questione di gusti e l'entropia non è priva di problemi (in particolare, ci sono molti stimatori diversi dell'entropia di una distribuzione). Per me l'entropia sembra una misura meno arbitraria ed è più facile da interpretare.
MånsT

8

Oltre alle buone idee di @MansT, potresti trovare altre misure, ma dipende da cosa intendi per "non uniformità". Per semplificare, diamo un'occhiata a 4 livelli. La perfetta uniformità è facile da definire:

25 25 25 25

ma quale delle seguenti è più non uniforme?

20 20 30 30 o 20 20 25 35

o sono ugualmente non uniformi?

se ritieni che siano ugualmente non uniformi, potresti utilizzare una misura basata sulla somma dei valori assoluti delle deviazioni dal normale, scalata dal massimo possibile. Quindi il primo è 5 + 5 + 5 + 5 = 20 e il secondo è 5 + 5 + 0 + 10 = 20. Ma se pensi che il secondo sia più non uniforme, potresti usare qualcosa basato sulle deviazioni quadrate nel qual caso il prima ottiene 25 + 25 + 25 + 25 = 100 e la seconda ottiene 25 + 25 + 0 + 100 = 150.


1
Sembra che tu interpreti "uniformemente distribuito" come "uguale", Peter. Se questa è l'intenzione del PO è un punto valido da sollevare, ma dovrebbe davvero apparire come un commento alla domanda.
whuber

Ciao @whuber Quello sembrava essere quello che intendeva, dalla domanda. Cos'altro potrebbe significare?
Peter Flom - Ripristina Monica

2
"Uguale" significa che il CDF è per x μ , F ( x ) = 0 per x < μ mentre "uniforme" significa F ( x ) = ( x - α ) / θ per x [ α , α + θ ] . Si definisce "perfetta uniformità" nel primo senso, mentre il senso statistico standard è il secondo.F(x)=1xμF(x)=0x<μF(x)=(xα)/θx[α,α+θ]
whuber

@whuber, mi sembra che la prima cosa sia più vicina a ciò che il poster originale intendeva per "uniforme". Guardandolo di nuovo, sembra che lui / lei stesse usando "uniforme" per significare "bassa varianza".
Macro

Esatto, Macro: non possiamo proprio dirlo. La domanda necessita di chiarimenti prima di meritare una risposta, IMHO. La risposta accettata suggerisce che l'OP ha usato "uniforme" nel senso statistico standard.
whuber

6

Ecco una semplice euristica: se si assumono elementi in una somma vettoriale pari a (o semplicemente si normalizza ogni elemento con la somma per raggiungere questo obiettivo), l'uniformità può essere rappresentata dalla norma L2, che varia da 11 a1, condè la dimensione dei vettori.1d1d

Il limite inferiore corrisponde all'uniformità e al limite superiore delvettorea1colpo.1d1

Per ridimensionarlo a un punteggio compreso tra e 1 , puoi usare n 01, dovenè la norma L2.n*d-1d-1n

1

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

0,00280,00510,4529

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

1
Lp

@whuber che non conosco e non conosco alcuna ricerca su questo. Fondamentalmente è qualcosa che ho usato come euristico che potrebbe adattarsi a ciò che OP sta cercando, e non pretendo davvero che sia un approccio preferito.
user495285

@whuber - Potresti capire teoricamente perché questo funziona così bene. Devo citare questo.
Ketan,

@ user495285 - Questo sembra funzionare direttamente con i valori e non solo con le frequenze. Nella tua esperienza, è meglio usarlo solo con frequenze o va bene usarlo direttamente su un vettore.
Ketan,

L2χ2

0

Ci siamo imbattuti di recente in questo, e per aggiungere alla risposta di @ user495285, per quanto ho capito:

RnLppRnp

L2p

nd-1d-1
nL2d

Ritengo che l'utilità delle misure geometriche si applichi quando si presume che ciascuna posizione (dimensione) dello spazio descritto sia misurata su scale equivalenti, ad esempio tutti i conteggi di una distribuzione potenzialmente uguale. Le stesse ipotesi alla base del cambiamento di basi come PCA / SVD probabilmente sono simili qui. Ma poi non sono un matematico, quindi lo lascerò aperto ai più informati.


Sembra utile. Potresti indicarmi qualche riferimento, in modo da poterlo capire meglio? In realtà ho bisogno di citare questo.
Ketan,

Potresti citare qualsiasi testo di algebra lineare che copra la norma Lp; questo è un argomento molto comune in geometria: come calcolare una distanza tra due punti in uno spazio N-dimensionale. Potrebbe non essere necessario citarlo a seconda del campo.
Lakinsm,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.