Come posso dimostrare analiticamente che la divisione casuale di un importo si traduce in una distribuzione esponenziale (ad esempio reddito e ricchezza)?


36

In questo attuale articolo di SCIENCE viene proposto quanto segue:

Supponiamo di dividere casualmente 500 milioni di entrate tra 10.000 persone. C'è solo un modo per dare a tutti una quota pari a 50.000. Quindi, se stai distribuendo i guadagni in modo casuale, l'uguaglianza è estremamente improbabile. Ma ci sono innumerevoli modi per dare ad alcune persone un sacco di soldi e molte persone poco o niente. In effetti, dati tutti i modi in cui è possibile dividere il reddito, la maggior parte di essi produce una distribuzione esponenziale del reddito.

L'ho fatto con il seguente codice R che sembra confermare il risultato:

library(MASS)

w <- 500000000 #wealth
p <- 10000 #people

d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution
h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45, xlim = c(0, quantile(d, 0.99)))

fit <- fitdistr(d,"exponential")
curve(dexp(x, rate = fit$estimate), col = "black", type="p", pch=16, add = TRUE)

inserisci qui la descrizione dell'immagine

La mia domanda
Come posso dimostrare analiticamente che la distribuzione risultante è davvero esponenziale?

Addendum
Grazie per le risposte e i commenti. Ho pensato al problema e ho escogitato il seguente ragionamento intuitivo. Fondamentalmente accade quanto segue (Attenzione: semplificazione eccessiva in avanti): si va avanti lungo la quantità e si lancia una moneta (di parte). Ogni volta che ottieni ad esempio teste dividi l'importo. Distribuisci le partizioni risultanti. Nel caso discreto il lancio della moneta segue una distribuzione binomiale, le partizioni sono distribuite geometricamente. Gli analoghi continui sono rispettivamente la distribuzione di Poisson e la distribuzione esponenziale! (Con lo stesso ragionamento diventa anche intuitivamente chiaro il motivo per cui la distribuzione geometrica ed esponenziale hanno la proprietà della mancanza di memoria - perché neanche la moneta ha una memoria).


3
Se dai i soldi uno per uno, ci sono molti modi per distribuirli in modo uniforme e molti altri per distribuirli quasi in modo uniforme (ad esempio una distribuzione che è quasi normale e con una media di e una deviazione standard vicino a )22450000224
Henry

@ Henry: potresti per favore descrivere un po 'di più questa procedura. Soprattutto cosa intendi con "uno per uno"? Forse potresti persino fornire il tuo codice. Grazie.
vonjd,

vonjd: inizia con 500 milioni di monete. Assegna ogni moneta in modo indipendente e casuale tra 10 mila individui con uguale probabilità. Aggiungi quante monete ottiene ogni individuo.
Henry,

@Henry: la dichiarazione originale era che la maggior parte dei modi per distribuire il rendimento in contanti era una distribuzione esponenziale. I modi di distribuire i contanti e le modalità di distribuzione delle monete non sono isomorfi, poiché esiste un solo modo per distribuire $ 500.000.000 in modo uniforme tra 10.000 persone (dare $ 50.000 ciascuno ) ma ci sono 500.000.000! / ((50.000!) ^ 10.000) di distribuire 50.000 monete a ciascuna di 10.000 persone.
supercat

1
@Henry Nello scenario che hai descritto nel commento più in alto, è stabilito fin dall'inizio che ogni persona ha la stessa probabilità di ottenere la moneta. Questa condizione assegna effettivamente un enorme peso alla distribuzione normale, piuttosto che considerare equamente i diversi modi di distribuire le monete.
higgsss,

Risposte:


27

Per semplificare il problema, consideriamo il caso in cui i valori consentiti della condivisione di ogni persona sono discreti, ad esempio numeri interi. Allo stesso modo, si può anche immaginare di dividere l '"asse del reddito" in intervalli equidistanti e approssimare tutti i valori che cadono in un dato intervallo dal punto medio.

Indicando il reddito totale come , il valore -th consentito come , il numero totale di persone come e infine il numero di persone con quote di come , le seguenti condizioni dovrebbe essere soddisfatto: e s x sXsxsx s n s C 1 ( { n s } ) s n s - N = 0 , C 2 ( { n s } ) s n s x s - X = 0.Nxsns

C1({ns})snsN=0,
C2({nS})ΣSnSXS-X=0.

Si noti che molti modi diversi per dividere la condivisione possono rappresentare la stessa distribuzione. Ad esempio, se considerassimo di dividere $ 4 tra due persone, dare $ 3 ad Alice e $ 1 a Bob e viceversa darebbero entrambe distribuzioni identiche. Poiché la divisione è casuale, la distribuzione con il numero massimo di modi corrispondenti per dividere la condivisione ha le migliori possibilità di verificarsi.

Per ottenere tale distribuzione, è necessario massimizzare sotto i due vincoli indicati sopra. Il metodo dei moltiplicatori di Lagrange è un approccio canonico per questo. Inoltre, si può scegliere di lavorare con invece che con stesso, poiché " " è una funzione crescente monotona. Cioè, dove sono moltiplicatori di Lagrange. Si noti che secondo la formula di Stirling , LnWWlnlnW

W({nS})N!ΠSnS!,
lnWWlnλ1,2lnn! nlnn-n,nsexp(-λ1-λ2xs),
lnWnS=λ1C1nS+λ2C1nS=λ1+λ2XS,
λ1,2
lnn!nlnn-n,
porta a Pertanto, Segue quindi che è una distribuzione esponenziale. Si possono ottenere i valori dei moltiplicatori di Lagrange usando i vincoli. Dal primo vincolo, lnW
dlnn!dnlnn.
N
lnWnS-lnnS.
nSexp(-λ1-λ2XS),
N=ΣSnSΣSexp(-λ1-λ2XS)1ΔX0exp(-λ1-λ2X)dX=1λ2ΔXexp(-λ1),
dove è la spaziatura tra i valori consentiti. Allo stesso modo, Pertanto, abbiamo ΔX
X=ΣSnSXSΣSXSexp(-λ1-λ2XS)1ΔX0Xexp(-λ1-λ2X)dX=1λ22ΔXexp(-λ1).
exp(-λ1)=N2ΔXX,
e Che questo sia davvero un massimo, piuttosto che un minimo o un punto di sella, può essere visto dall'assia di . Poiché sono lineari in , è uguale a quello di : e
λ2=NX.
lnW-λ1C1-λ2C2C1,2nSlnW
2lnWnS2=-1nS<0,
2lnWnSnr=0(Sr).
Quindi l'Assia è concava e ciò che abbiamo trovato è davvero un massimo.

La funzione è in realtà la distribuzione delle distribuzioni. Per le distribuzioni in genere osserviamo di essere vicine a quella più probabile, dovrebbe essere abbastanza stretto. Dall'Assia si vede che questa condizione è pari a . (È anche la condizione che la formula di Stirling sia affidabile.) Pertanto, per vedere effettivamente la distribuzione esponenziale, le partizioni nell'asse del reddito (corrispondenti ai bin nell'istogramma di OP) dovrebbero essere abbastanza larghe in modo che il numero di persone in una partizione sia molto maggiore di unità. Verso la coda, dove tende a zero, questa condizione è sempre destinata a fallire.W({nS})W({nS})nS»1nS

Nota: questo è esattamente il modo in cui i fisici comprendono la distribuzione di Boltzmann nella meccanica statistica. La distribuzione esponenziale è essenzialmente esatta per questo caso, poiché consideriamo .N~1023


1
Grazie, dai un'occhiata alla risposta di Glen_b. È coerente con la tua risposta?
vonjd,

2
@vonjd Prego! Penso che la sua risposta sia coerente con la mia. A me sembra che stia facendo un'analogia con il processo di Poisson nel seguente senso: considera un processo di Poisson con l '"intervallo di tempo medio" di 50.000 e conta 10.000 eventi. Quindi, in media, l '"intervallo di tempo totale" è 50.000 x 10.000 = 500 milioni.
higgsss,

2
@vonjd Ho aggiornato la mia risposta. In particolare, ho aggiunto la discussione sulla condizione che la distribuzione che osserviamo in genere sia qualcosa di simile alla distribuzione più probabile.
higgsss,

2
Quando si considerano casi discreti, sarebbe utile osservare che le cose T possono essere divise tra N persone ((N + T-1) scegliere (N-1)) modi? Se la prima persona riceve f cose, il numero di modi in cui si può distribuire il resto è ((N + Tf-2) scegliere (N-2)); la somma di quella per i valori di f da 0 a N è il numero totale di modi per distribuire tutto.
supercat

1
@supercat Sembra un altro modo per derivare la distribuzione esponenziale per me. Supponiamo che (consideriamo i valori di che non sono vicini alla coda della distribuzione). Quindi, scegli . fT»N,ff(N+T-f-2)(N-2)=(N+T-f-2)!/(N-2)!/(T-f)! α(N+T-f-2)!/(T-f)!(T-f)N-2TN-2e-(N-2)f/T
higgsss,

17

In effetti puoi provare che in realtà non è esponenziale, quasi banalmente:

Calcola la probabilità che una determinata quota sia superiore a milioni. Confronta con la probabilità che una variabile casuale esponenziale sia maggiore di milioni.500500

Tuttavia, non è troppo difficile vederlo per il tuo esempio di divario uniforme che dovrebbe essere vicino all'esponenziale.

Considera un processo di Poisson - in cui gli eventi si verificano casualmente lungo una certa dimensione. Il numero di eventi per unità dell'intervallo ha una distribuzione di Poisson e il divario tra gli eventi è esponenziale.

Se si prende un intervallo fisso, gli eventi in un processo di Poisson che rientrano in esso vengono distribuiti uniformemente nell'intervallo. Vedi qui .

[Tuttavia, nota che poiché l'intervallo è finito, semplicemente non puoi osservare spazi più grandi della lunghezza dell'intervallo e è improbabile che spazi quasi così grandi (considera, ad esempio, in un intervallo di unità - se vedi spazi di 0,04 e 0,01, il prossimo gap che vedi non può essere maggiore di 0,95).]

Quindi, a parte l'effetto di limitare l'attenzione a un intervallo fisso sulla distribuzione degli spazi (che ridurrà per grande , il numero di punti nell'intervallo), ti aspetteresti che questi spazi vengano distribuiti esponenzialmente.n

Ora nel tuo codice, stai dividendo l'intervallo di unità posizionando le uniformi e quindi trovando le lacune nelle successive statistiche degli ordini. Qui l'intervallo unitario non è tempo o spazio ma rappresenta una dimensione del denaro (immagina il denaro come 50000 milioni di centesimi disposti da un capo all'altro e chiama la distanza che coprono l'intervallo unitario; tranne qui possiamo avere frazioni di un centesimo); stabiliamo segni e questo divide l'intervallo in "condivisioni". A causa della connessione tra il processo di Poisson e punti uniformi in un intervallo, le lacune nelle statistiche dell'ordine di un'uniforme tenderanno ad apparire esponenziali, purché non sia troppo piccolo.nn+1n

Più specificamente, qualsiasi gap che inizia nell'intervallo posto sopra il processo di Poisson ha la possibilità di essere "censurato" (in effetti, ridotto più corto di quanto sarebbe altrimenti) correndo verso la fine dell'intervallo.

inserisci qui la descrizione dell'immagine

Gli spazi più lunghi hanno maggiori probabilità di farlo rispetto a quelli più corti e più spazi nell'intervallo significano che la lunghezza media degli spazi deve scendere - più spazi brevi. Questa tendenza ad essere "tagliata" tenderà ad influenzare la distribuzione degli spazi più lunghi rispetto a quelli corti (e non c'è alcuna possibilità che uno spazio limitato all'intervallo superi la lunghezza dell'intervallo, quindi la distribuzione delle dimensioni dello spazio dovrebbe diminuire senza intoppi a zero alla dimensione dell'intero intervallo).

Nel diagramma, un intervallo lungo alla fine è stato ridotto e un intervallo relativamente breve all'inizio è anche più breve. Questi effetti ci allontanano dall'esponenzialità.

(La distribuzione effettiva degli spazi vuoti tra statistiche di ordine uniforme è Beta (1, n).)n

Quindi dovremmo vedere la distribuzione in grande apparire esponenziale nei valori piccoli e quindi meno esponenziale in valori più grandi, poiché la densità ai suoi valori più grandi diminuirà più rapidamente.n

Ecco una simulazione della distribuzione delle lacune per n = 2:

inserisci qui la descrizione dell'immagine

Non molto esponenziale.

Ma per n = 20, inizia a sembrare piuttosto vicino; infatti man mano che cresce, sarà ben approssimato da un esponenziale con media .n1n+1

inserisci qui la descrizione dell'immagine

Se quello fosse effettivamente esponenziale con la media 1/21, allora sarebbe uniforme ... ma possiamo vedere che non lo è, piuttosto:exp(-21X)

inserisci qui la descrizione dell'immagine

La non uniformità nei valori bassi corrisponde a grandi valori delle lacune - che ci aspetteremmo dalla discussione sopra, perché l'effetto del "tagliare" il processo di Poisson a un intervallo finito significa che non vediamo le maggiori lacune. Ma man mano che prendi sempre più valori, questo si spinge oltre nella coda, e quindi il risultato inizia a sembrare più uniforme. A , la visualizzazione equivalente sarebbe più difficile da distinguere dall'uniforme - i divari (che rappresentano le quote del denaro) dovrebbero essere molto vicini alla distribuzione esponenziale tranne che ai valori molto improbabili, molto molto grandi.n=10000


2
Quindi, solo per capire te correttamente: Lei sta dicendo che è non esponenziale?!? higgsss dimostra sopra che è esponenziale!
vonjd,

3
Permettetemi di citare la mia risposta: (i) "puoi dimostrare che in realtà non è esponenziale" MA (ii) per le lacune uniformi che hai guardato "... deve essere vicino all'esponenziale" ... "fintanto che n non lo è troppo piccolo." ... Cosa non è chiaro?
Glen_b -Restate Monica

5
Ho delineato la (banale, ovvia) prova che in realtà non è esponenziale nella mia risposta. higgss non dimostra che sia esponenziale. Quella (eccellente) risposta è completamente coerente con le mie dichiarazioni. In esso, higgsss dimostra che sarà approssimativamente esponenziale:nSexp(-λ1-λ2XS)
Glen_b -Reinstate Monica

2
Penso che questa risposta sia un ottimo modo per esaminare il problema e merita più voti. Eppure temo che il modo in cui funziona l'analogia con il processo di Poisson (ad esempio, a quale "tempo" corrisponde) possa apparire poco chiaro. Saresti disposto a fornire qualche dettaglio in più?
higgsss,

3
@higgsss Ho riformulato leggermente (rimuovendo il riferimento al tempo), ho aggiunto un po 'di dettagli e un link. Potrei aggiungere qualche discussione in seguito. Se hai suggerimenti specifici, sarei interessato a migliorare ulteriormente la mia risposta.
Glen_b -Restate Monica

8

Supponiamo che il denaro sia infinitamente divisibile in modo da poter trattare con numeri reali piuttosto che numeri interi.

Quindi la distribuzione uniforme di partizionata su individui darà una densità marginale per ogni individuo per e una probabilità cumulativa marginale per ogni individuo dit=500000000n=10000

p(X)=n-1t(1-Xt)n-2
0Xt
P(XX)=1-(1-Xt)n-1.

Se si desidera applicare questo, utilizzare la distribuzione marginale per allocare una quantità casuale a una qualsiasi delle persone, quindi ridurre a e a e ripetere. Si noti che quando , questo darebbe a ciascun individuo una distribuzione marginale uniforme sull'importo rimanente, proprio come ci si potrebbe aspettare; quando tutti i soldi rimanenti alla singola persona rimasta.Xtt-Xnn-1n=2n=1

Queste espressioni sono polinomiali piuttosto che esponenziali, ma per grandi probabilmente troverai difficile distinguere i loro effetti da una distribuzione esponenziale con un parametro vicino a . La distribuzione è esponenziale asintoticamente perché come . nnt(1-ym)mexp(-y)m


8

Dire "supponi di dividere casualmente 500 milioni di entrate tra 10.000 persone" non è sufficientemente specifico per rispondere alla domanda. Esistono molti processi casuali diversi che potrebbero essere utilizzati per allocare un importo fisso di denaro a un numero fisso di persone e ognuno avrà le proprie caratteristiche per la distribuzione risultante. Qui ci sono tre processi generativi che mi vengono in mente e le distribuzioni di ricchezza che ognuna crea.

library(MASS)

w <- 500000000 #wealth
p <- 10000 #people

Metodo 1, pubblicato da OP:

Scegli i numeri 'p' da [0, w) uniformemente a caso. Ordina questi. Aggiungi '0' in primo piano. Distribuire gli importi in dollari rappresentati dalle differenze tra gli elementi successivi in ​​questo elenco.

d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution
h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45,
     xlim = c(0, quantile(d, 0.99)))
fit <- fitdistr(d,"exponential")
curve(dexp(x, rate = fit$estimate), col = "black", type="p", 
      pch=16, add = TRUE)

interruzioni di intervallo uniformi

Metodo 2:

Scegli i numeri 'p' da [0, w) uniformemente a caso. Considera questi "pesi", quindi "w" non ha importanza in questa fase. Normalizza i pesi. Distribuire gli importi in dollari rappresentati dalla frazione di 'w' corrispondente a ciascun peso.

d <- runif(p,max=w) #weigh-distribution
d <- d/sum(d)*w #wealth-distribution
h <- hist(d, col="red", main="pretty uniform", freq = FALSE, breaks = 45, 
          xlim = c(0, quantile(d, 0.99)))

pesi riscalati

Metodo 3:

Inizia con 'p' 0s. w volte, aggiungi 1 a uno di essi, selezionato in modo uniforme a caso.

d <- rep(0, p)
for( i in 1:5000000){ ## for-loops in R are terrible, but this gives the idea.
    k <- floor(runif(1, max=p)) + 1    
    d[k] = (d[k] + 1)
}
h <- hist(d, col="red", main="kinda normalish?", freq = FALSE, breaks = 45,
          xlim = c(0, quantile(d, 0.99)))

dollari iterativi


4

Vorrei aggiungere qualcosa per quanto riguarda il tuo addendum.

p(X)=N-1X(1-XX)N-2,
NX

Mm

p(m)=N-1M+1Πj=0N-3(1-mM-j)N-2.
M»NN

N

Tuttavia, l'esecuzione dell'analisi degli errori non sembra essere semplice poiché in questo caso diversi campionamenti non sono indipendenti. Devono riassumere l'importo totale e quanto la prima persona riceve influisce sulla distribuzione delle probabilità per la seconda persona e così via.

La mia risposta precedente non soffre di questo problema, ma penso che sarebbe utile vedere come può essere risolto in questo approccio.


3

Buona analisi teorica fatta dalle risposte votate. Tuttavia, ecco la mia semplice visione empirica sul perché la distribuzione è esponenziale.

Quando distribuisci i soldi in modo casuale , consideriamo di farlo uno per uno. Sia S la somma originale.

Per il primo uomo, devi scegliere un importo casuale tra 0 e S. Quindi, in media, sceglierai S / 2 e rimarrai con S / 2.

Per il secondo uomo, sceglieresti casualmente tra 0 e, in media, S / 2. Quindi, in media, sceglierai S / 4 e rimarrai su S / 4.

Quindi, fondamentalmente si dividerebbe la somma a metà ogni volta (statisticamente parlando).

Sebbene in un esempio di vita reale non avrai valori dimezzati continuamente, questo mostra perché ci si dovrebbe aspettare che la distribuzione sia esponenziale.


3
Il tuo algoritmo tende a dare più soldi alla prima persona che a qualsiasi altra. Ci sono altri approcci che non hanno questo pregiudizio.
Henry,

@Henry In quale altro modo potresti iniziare a condividere i soldi? Devi iniziare con qualcuno. E quando lo fai, hai l'intero importo di fronte a te. Dandogli una frazione casuale significa letteralmente selezionare a caso dall'intera somma. Non si può dire che l'ipotesi di avere un "primo uomo" sia errata, perché altrimenti chi condivide il denaro semplicemente dividerebbe la somma per il numero di uomini poiché sa in anticipo quante persone ci sono. Questo è solo il mio punto di vista: quando dici di dividere i soldi "casualmente", ci sarà semplicemente un uomo che otterrà più soldi
Bogdan Alexandru,

Bogdan Alexandru: Il mio algoritmo (un'altra risposta) ha la caratteristica che la distribuzione per ogni individuo è la stessa, indipendentemente dal fatto che siano scelti per primi, nel mezzo o nell'ultimo. Corrisponde anche a una densità uniforme attraverso lo spazio limitato dall'importo totale da allocare.
Henry,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.