Quanti dei termini più grandi inaggiungere fino alla metà del totale?


11

Considera dove sono iid e il CLT regge. Quanti dei termini maggiori sommano fino alla metà della somma totale? Ad esempio, 10 + 9 + 8 (10 + 9 + 8 + 1) / 2: il 30% dei termini raggiunge circa la metà del totale.i=1N|Xi|X1,,XN

Definisci
sumbiggest( j;X1XN)sum of the j biggest of |X1||XN|
halfsum(N)the smallest j such that sumbiggest( j )sumbiggest(N)/2.

Esiste un risultato asintotico generale per halfsum ( )? Una derivazione semplice e intuitiva sarebbe piacevole.N,μ,σ

(Un po 'Monte Carlo suggerisce che a volte halfsum ( ) / 4 o giù di lì; cioè, il più grande 1/4 aggiunge fino a 1/2 del totale. Ottengo 0,24 per halfnormal, 0,19 per esponenziale, per = 20, 50, 100.)N X i N N NNN
Xi
NNN


3
Non aspettarti un risultato universale simile a CLT. Ad esempio, la risposta per le variate uniformi (0,1) sarà molto diversa dalla risposta per le variate uniformi (1000,1001)!
whuber

Bene, il mezzo sumulo dipenderà ovviamente da media e sd. Ma perché ~ N / 5 per esponenziale?
Denis,

2
Asintoticamente, Denis, il valore soglia per il halfsum sarà il valore per cui dove è il pdf per; la domanda chiede ( è il cdf per ). Nel caso della distribuzione uniforme ottieni la risposta di @ Dilip; per un esponenziale, . x 0 t f ( t ) d t = 1 / 2 f | X i | N ( 1 - F ( x ) ) F | X i | [ 0 , 1 ] x 0,186682 N N / 5x0xtf(t)dt=1/2f|Xi|N(1F(x))F|Xi|[0,1]x0.186682NN/5
whuber

Risposte:


2

No, non esiste un risultato asintotico generale. Sia l' ordinato , dove è il più grande. x i x [ 1 ]x[1]x[N]xix[1]

Considera i seguenti due esempi:

1) . Chiaramente il CLT regge. Hai solo bisogno dell'osservazione per. M = 1 M j = 1 | x [ j ] | 1P(x=0)=1M=1j=1M|x[j]|12N|xi|

2) . Chiaramente il CLT regge. Hai bisogno di osservazioni per.P(x=1)=1M=N/2j=1M|x[j]|12N|xi|

Per un esempio non banale, la distribuzione di Bernoulli:

3) . Ancora una volta il CLT regge. È necessario delle osservazioni per soddisfare le proprie condizioni. Variando tra 0 e 1, puoi avvicinarti all'esempio 1 o all'esempio 2 come preferisci.P(x=1)=p, P(x=0)=1ppN/2p


4
È infatti evidente che la risposta può essere compresa tra e , ma ciò non implica la non esistenza di un risultato generale. Ciò che implica è che dovremmo considerare le risposte in cui la frazione dipende da alcune proprietà della distribuzione sottostante come la sua media e SD. Questi sono sufficienti, insieme al CLT, per fornire informazioni specifiche e quantitative su come sono distribuiti gli rispetto alla loro somma, quindi è ragionevole sperare in un simile risultato. 0N/2x[i]
whuber

1

Ecco un argomento grezzo che fornisce una stima leggermente diversa per variabili casuali distribuite uniformemente. Supponiamo che siano variabili casuali continue distribuite uniformemente su . Quindi, ha un valore medio . Supponiamo che per una coincidenza sorprendente e assolutamente incredibile, la somma sia esattamente uguale a . Quindi vogliamo stimare quanti dei più grandi valori di sommano a o più. Ora, l'istogramma di campioni ( molto grandi) disegnati dalla distribuzione uniformem è approssimativamente piatto da aXi[0,1]iXiN/2N/2XN/4NNU[0,1]01e quindi per ogni , , ci sono campioni distribuiti approssimativamente in modo uniforme tra a . Questi campioni hanno valore medio e somma pari a . La somma supera per . Quindi, la somma di campioni più grandi supera .x0<x<1(1x)Nx1(1+x)/2(1x)N(1+x)/2)=(1x2)N/2N/4x1/2(11/2)N0.3NN/4

Potresti provare a generalizzare un po '. Se , allora per ogni dato , vogliamo che sia tale che dove è normale con media e varianza . Pertanto, condizionato su un valore di , . Moltiplica per la densità di e integra (da a ) per trovare il numero medio di campioni più grandi che supererà la metà della somma casuale.iXi=YYx(1x2)N/2=Y/2YN/2N/12Yx=1(Y/N)YY=0Y=N


La distanza tra due punti limitati a essere nell'intervallo non può essere distribuita in modo esponenziale perché la distanza deve essere inferiore a mentre una variabile casuale esponenziale assume valori in . Ciò che è vero è che se sono variabili casuali esponenziali indipendenti, quindi condizionate su , le statistiche dell'ordine sono distribuiti uniformemente in . Vedi, ad esempio, questa domanda e risposta sul sito compagno math.SE. (continua)(0,1)1(0,)Y1,Y2,,Yn+1Ymax=α Y(1),Y(2),,Y(n)(0,α)
Dilip Sarwate

In ogni caso, il mio argomento non utilizza le distanze tra i campioni ordinati dalla distribuzione uniforme.
Dilip Sarwate,

Hai ragione, ti ho frainteso. Come domanda secondaria, i pezzi tra punti uniforme-casuali non sono distribuiti esponenzialmente, dopo il ridimensionamento: il contrario del tuo q + a? [Broken Stick Rule del Wolfram Demonstrations Project] ( dimostrations.wolfram.com/BrokenStickRule ) sembra sicuramente esponenziale, deve esserci un modo semplice? prova.
denis,

Si prega di porre la domanda secondaria come domanda separata.
Dilip Sarwate,

Iniziato, poi ho visto probabilità-distribuzione-frammento-lunghezze , puoi commentare lì.
denis,

0

Supponiamo che X abbia solo valori positivi per sbarazzarsi del valore assoluto.

Senza una prova esatta, penso che devi risolvere per k

(1FX(k))E(X|X>=k)=12E(X) con F come funzione di distribuzione cumulativa per X

e quindi la risposta viene data prendendo i valori più alti .n(1FX(k))

La mia logica è che asinttopicamente dovrebbe essere la somma di tutti i valori superiori a k

n(1FX(k))E(X|X>=k)

e asinttopicamente metà della somma totale è di circa

12nE(X) .

La simulazione numerica mostra che il risultato vale per il caso uniforme (uniforme in ) dove e ottengo . Non sono sicuro se il risultato sia sempre valido o se possa essere ulteriormente semplificato, ma penso che dipenda davvero dalla funzione di distribuzione F.F ( k ) = k k = [0,1]F(k)=kk=(12)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.