Come posso raggruppare i dati numerici per formare naturalmente "parentesi"? (es. reddito)


14

Di seguito viene descritto ciò che sto cercando di realizzare, ma è possibile che un'istruzione alternativa del problema descriva il mio obiettivo:

voglio

  1. dividere i seguenti numeri in gruppi in cui le varianze dei numeri all'interno di ciascun gruppo non sono troppo grandi e le differenze tra le medie dei gruppi non sono troppo piccole

  2. confrontare la distribuzione ottenuta alla fine con quelle "perfette" e vedere quanto è "diversa" dall'essere perfetta.


La spiegazione dell'obiettivo di Layman

Sto cercando di calcolare la distribuzione del reddito e determinare le "fasce di reddito" in ciascuna popolazione. La fascia di reddito dovrebbe autoregolarsi in base ai dati di input.

Il mio obiettivo è in definitiva misurare o calcolare la differenza tra le fasce di reddito. Suppongo che ci saranno molte parentesi e voglio vedere quanto "distanti" sono i livelli.

Ecco un esempio di reddito orario per un set di campioni di una popolazione di 20 persone e un reddito totale di 3587:

Population= 10                   pop=2   population=5              population =3
10, 11,13,14,14,14,14,14,15,20,  40,50  ,90,91,92,93,94      999,999,900 

Come posso usare concetti matematici per raggruppare, ordinare e analizzare i dati che agiscono come distribuzione del reddito su una determinata popolazione?

Alla fine del calcolo, voglio determinare la distribuzione del reddito su più livelli, dove una distribuzione perfetta sarebbe simile (qualcosa) come questo

(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279

o questo:

(evenly distributed groups of people make the same per hour) 
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99   129 129 129   159 159 159   199 199 199  229 229 229  269 269 269 

Domanda

Come dovrei analizzare i gruppi di popolazione e misurare il divario in un modo che mi dirà quanto è necessario per renderlo più simile agli ultimi due set di modelli sopra elencati?


Grazie @svidgen per il suggerimento di pubblicare qui invece di Programmers.SE
goodguys_activate

Nota: ho ricevuto questo feedback mentre ponevo questa domanda: It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.
goodguys_activate il

Mi sembra di aver trovato qualcosa di molto simile a quello di cui ho bisogno ... chiamato binning data: msdn.microsoft.com/en-us/magazine/dn342876.aspx
goodguys_activate

Sì, per favore migra la domanda (e includi la tua migliore spiegazione dai commenti se possibile).
goodguys_activate

Cerca delle lacune nella distribuzione dei redditi, se sei fortunato puoi trovare picchi (alquanto artificiali) che puoi usare come parentesi. Questo probabilmente funziona relativamente bene per i redditi più bassi.
Marc Claesen,

Risposte:


18

L'analisi del cluster con una singola variabile ha perfettamente senso ogni volta che esiste una dimensione lungo la quale è possibile disporre i valori. Potrebbe trattarsi di una scala di misurazione , tempo o spazio .

Dati i dati ordinati su una certa scala di misurazione , potrebbe essere interessante cercare interruzioni relative all'interno di una distribuzione di frequenza (antimodici, in una terminologia).

Nota di cautela: tuttavia, le interruzioni che definiscono i contenitori che sono, o che potrebbero sembrare arbitrarie, sono ampiamente evitate in diverse aree della scienza statistica e vi è una preferenza diffusa e marcata per il binning a intervalli uguali e molto spesso per evitare del tutto il binning quando possibile . Questa è in parte una questione di gusti, in parte una di convenzione: le pratiche sono cambiate man mano che diventa più facile memorizzare i set di dati nella loro interezza.

Una serie temporale potrebbe essere suddivisa in incantesimi, epoche, periodi, idealmente con differenze relativamente piccole tra le sottoserie e differenze relativamente grandi tra le sottoserie. Lo stesso problema sorge per lo spazio ogni volta che una singola dimensione spaziale (orizzontale o verticale) deve essere suddivisa. Nelle scienze geologiche e di altro genere, questo è spesso studiato sotto il titolo di zonazione.

Si noti che qualsiasi cluster formale dovrebbe sempre essere accompagnato da un'appropriata rappresentazione dei dati (ad esempio, usando un punto o un quantile o un diagramma a linee), che in effetti potrebbe chiarire che le interruzioni sono ovvie (quindi che il clustering formale è semplicemente decorativo) o che non esistono interruzioni convincenti (quindi il raggruppamento formale può essere inutile).

Considera un esempio giocattolo di valori ordinati per grandezza:

    14 15 16 23 24 25 56 57 58 

dove è evidente che un raggruppamento di tre gruppi

    14 15 16 | 23 24 25 | 56 57 58 

KnK-1K-1=2n-1(n-1K-1)K2n-1n

Il problema può essere reso preciso (Fisher 1958; Hartigan 1975) posizionando i marker per minimizzare, per un dato numero di gruppi, il

somma su gruppi di variabilità attorno ai centri di gruppo.

Una somma di deviazioni quadrate dai mezzi di gruppo verrà in mente come la possibilità più ovvia. La somma delle deviazioni assolute rispetto alle mediane di gruppo e altre misure potrebbe ben essere intrattenuta.

Hartigan (1975) ha mostrato come un approccio di programmazione dinamica renda tale calcolo semplice e ha presentato il codice Fortran. Un'implementazione Stata (Cox 2007) deve group1dessere installata da SSC.

Cox, New Jersey 2007. GROUP1D: modulo Stata per raggruppare o raggruppare in una dimensione. http://ideas.repec.org/c/boc/bocode/s456844.html

Fisher, WD 1958. Sul raggruppamento per la massima omogeneità. Journal, American Statistical Association 53: 789-98.

Hartigan, JA 1975. Algoritmi di clustering. New York: John Wiley. Ch.6.

Postscript Questo approccio sembra corrispondere alla prima parte della domanda specifica. L'ho lanciato in generale perché penso che la formulazione sia di qualche interesse generale (e perché è stato facile per me riciclare parte della documentazione di Cox 2007). Ma se l'obiettivo specifico è confrontare una distribuzione del reddito con una distribuzione uniforme di riferimento, non vedo che il binning abbia alcun ruolo da svolgere. Questo è un problema standard in economia per il quale le curve di Lorenz e le misure di disuguaglianza sono i punti di partenza. In sostanza, puoi confrontare il quantile con il quantile o il punto percentuale con il punto percentuale.


1

Dai un'occhiata a Jenks Natural Break:

https://en.wikipedia.org/wiki/Jenks_natural_breaks_optimization

Penso che sia quello che ti serve, e ci sono implementazioni in molte lingue.


5
Anche se potrebbe non essere immediatamente evidente, questo è precisamente il suggerimento di Nick Cox che "una somma di deviazioni quadrate dai mezzi di gruppo verrà alla mente come la possibilità più ovvia". Era in parte più generale di quello (sospetto) perché per i redditi questa sarebbe una soluzione scadente: di solito è meglio eseguire il calcolo in termini di redditi di registro.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.