Di seguito viene descritto ciò che sto cercando di realizzare, ma è possibile che un'istruzione alternativa del problema descriva il mio obiettivo:
voglio
dividere i seguenti numeri in gruppi in cui le varianze dei numeri all'interno di ciascun gruppo non sono troppo grandi e le differenze tra le medie dei gruppi non sono troppo piccole
confrontare la distribuzione ottenuta alla fine con quelle "perfette" e vedere quanto è "diversa" dall'essere perfetta.
La spiegazione dell'obiettivo di Layman
Sto cercando di calcolare la distribuzione del reddito e determinare le "fasce di reddito" in ciascuna popolazione. La fascia di reddito dovrebbe autoregolarsi in base ai dati di input.
Il mio obiettivo è in definitiva misurare o calcolare la differenza tra le fasce di reddito. Suppongo che ci saranno molte parentesi e voglio vedere quanto "distanti" sono i livelli.
Ecco un esempio di reddito orario per un set di campioni di una popolazione di 20 persone e un reddito totale di 3587:
Population= 10 pop=2 population=5 population =3
10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900
Come posso usare concetti matematici per raggruppare, ordinare e analizzare i dati che agiscono come distribuzione del reddito su una determinata popolazione?
Alla fine del calcolo, voglio determinare la distribuzione del reddito su più livelli, dove una distribuzione perfetta sarebbe simile (qualcosa) come questo
(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279
o questo:
(evenly distributed groups of people make the same per hour)
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99 129 129 129 159 159 159 199 199 199 229 229 229 269 269 269
Domanda
Come dovrei analizzare i gruppi di popolazione e misurare il divario in un modo che mi dirà quanto è necessario per renderlo più simile agli ultimi due set di modelli sopra elencati?
It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.