Statistiche dell'ordine approssimativo per normali variabili casuali


39

Esistono formule ben note per le statistiche degli ordini di determinate distribuzioni casuali? Soprattutto le statistiche del primo e dell'ultimo ordine di una normale variabile casuale, ma sarebbe apprezzata anche una risposta più generale.

Modificare: per chiarire, sto cercando formule approssimative che possono essere valutate più o meno esplicitamente, non l'esatta espressione integrale.

Ad esempio, ho visto le seguenti due approssimazioni per la statistica del primo ordine (cioè il minimo) di un normale camper:

e1:nμn12n1σ

e

e1:nμ+Φ1(1n+1)σ

Il primo di questi, per n=200 , dà circa e1:200μ10σ che sembra un limite selvaggio.

Il secondo dà e1:200μ2.58σ mentre un rapido Monte Carlo dà e1:200μ2.75σ , quindi non è una cattiva approssimazione ma neanche eccezionale, e soprattutto non ho alcuna intuizione su da dove viene.

Qualsiasi aiuto?


4
Se si utilizza R, vedere la ppoints funzioni.
cardinale

1
@probabilityislogic ha dato una buona intuizione per le approssimazioni che elenchi. Sarebbe di grande aiuto se avessi dato qualcosa in più da un punto di vista alternativo o avessi soddisfatto la tua curiosità in merito?
cardinale

Risposte:


31

Il riferimento classico è Royston (1982) [1] che ha algoritmi che vanno oltre le formule esplicite. Cita anche una nota formula di Blom (1958): conα=0,375. Questa formula fornisce un moltiplicatore di -2,73 pern=200,r=1E(r:n)μ+Φ1(rαn2α+1)σα=0.375n=200,r=1 .

[1]: Algorithm AS 177: Statistiche ordine normale attese (esatte e approssimative) JP Royston. Giornale della Royal Statistical Society. Serie C (statistiche applicate) Vol. 31, n. 2 (1982), pagg. 161-165


21

La distribuzione della statistica del primo ordine di qualsiasi variabile casuale continua con un PDF è data dalla distribuzione composta "beta-F". Il modo intuitivo pensare a questa distribuzione, è considerare la statistica ordine esimo in un campione di . Ora, affinché il valore della statistica del suo ordine di una variabile casuale X sia uguale a x abbiamo bisogno di 3 condizioni:NXx
  1. valori sotto x , questo ha probabilità F X ( x ) per ogni osservazione, dove F X ( x ) = P r ( X < x ) è il CDF della variabile casuale X.i1xFX(x)FX(x)=Pr(X<x)
  2. valori sopra x , questo ha probabilità 1 - F X ( x )Nix1FX(x)
  3. 1 valore all'interno di un intervallo infinitesimale contenente , questo ha probabilità f X ( x ) d x dove f XxfX(x)dx è il PDF della variabile casuale XfX(x)dx=dFX(x)=Pr(x<X<x+dx)X

Ci sono modi per fare questa scelta, quindi abbiamo:(N1)(N1i1)

fi(xi)=N!(i1)!(Ni)!fX(xi)[1FX(xi)]Ni[FX(xi)]i1dx

EDIT nel mio post originale, ho fatto un tentativo molto scarso di andare oltre da questo punto, e i commenti qui sotto riflettono questo. Ho cercato di correggere questo di seguito

Se prendiamo il valore medio di questo pdf otteniamo:

E(Xi)=xifi(xi)dxi

E in questo integrale, facciamo la seguente modifica della variabile (prendendo il suggerimento di @ henry), e l'integrale diventa:pi=FX(xi)

E(Xi)=01FX1(pi)Beta(pi|i,Ni+1)dpi=EBeta(pi|i,Ni+1)[FX1(pi)]

Quindi questo è il valore atteso del CDF inverso, che può essere ben approssimato usando il metodo delta per dare:

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[EBeta(pi|i,Ni+1)]=FX1[iN+1]

Per fare una migliore approssimazione, possiamo espanderci al 2 ° ordine (differenziazione indicante il primo) e notando che la seconda derivata di un inverso è:

2a2FX1(a)=FX(FX1(a))[FX(FX1(a))]3=fX(FX1(a))[fX(FX1(a))]3

Sia . Poi abbiamo:νi=FX1[iN+1]

=νi-(i

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[νi]VarBeta(pi|i,Ni+1)[pi]2fX(νi)[fX(νi)]3
=νi(iN+1)(1iN+1)2(N+2)fX(νi)[fX(νi)]3

Ora, specializzandoci nel caso normale, abbiamo FX

fX(x)=1σϕ(xμσ)fX(x)=xμσ3ϕ(xμσ)=xμσ2fX(x)
FX(x)=Φ(xμσ)FX1(x)=μ+σΦ1(x)

Si noti che E l'aspettativa diventa approssimativamente:fX(νi)=1σϕ[Φ1(iN+1)]

E[xi]μ+σΦ1(iN+1)+(iN+1)(1iN+1)2(N+2)σΦ1(iN+1)[ϕ[Φ1(iN+1)]]2

E infine:

E[xi]μ+σΦ1(iN+1)[1+(iN+1)(1iN+1)2(N+2)[ϕ[Φ1(iN+1)]]2]

Anche se come ha notato @whuber, questo non sarà accurato nelle code. In effetti penso che potrebbe essere peggio, a causa dell'asimmetria di una beta con parametri diversi


1
"Stima della massima verosimiglianza di una variabile casuale "? Non sono sicuro di cosa si tratti, ma penso che tu abbia (quasi) calcolato la modalità .
cardinale

1
Qualcosa di misterioso accade a circa i due terzi del passaggio quando improvvisamente μ e σ appare senza preavviso o definizione.
whuber

2
Non intendo "impilare", ma è anche difficile per me vedere come la quantità tra parentesi possa essere approssimata da un numero negativo.
cardinale

1
@probabilityislogic, mentre a livello di calcolo, potresti dire che in questo caso stiamo considerando una funzione bivariata e stiamo semplicemente massimizzando su una variabile anziché su un'altra, penso che ci siano ragioni matematiche, statistiche e pedagogiche per non chiamare ciò che tu "fatto la stima della massima verosimiglianza". Sono troppo numerosi per essere enumerati in questo spazio, ma un semplice che penso sia abbastanza convincente è che usiamo un vocabolario particolare e arcano nelle statistiche per una ragione. Cambiarlo per capriccio per un singolo problema può portare a fraintendimenti ... / ...
cardinale

2
@probabilityislogic (+1) per la risposta rivista. Un suggerimento, forse è meglio di per dire "implica". Ci sono voluti alcuni secondi per fissare un paio di righe per rendersi conto che non stavi facendo alcuna richiesta di convergenza.
cardinale

13

La risposta di Aniko si basa sulla formula ben nota di Blom che prevede una scelta di α=3/8. Si scopre che questa formula è essa stessa una semplice approssimazione di una risposta esatta dovuta a G. Elfving (1947), La distribuzione asintotica del range nei campioni di una popolazione normale , Biometrika, Vol. 34, pagg. 111-119. La formula di Elfving è mirata al minimo e al massimo del campione, per il quale è la scelta corretta di alfaπ/8. La formula di Blom risulta quando ci approssimiamoπ di 3.

Usando la formula Elfving anziché l'approssimazione di Blom, otteniamo un moltiplicatore di -2.744165. Questo numero è più vicino alla risposta esatta di Erik P. (-2.746) e all'approssimazione di Monte Carlo (-2,75) rispetto all'approssimazione di Blom (-2,73), pur essendo più facile da implementare rispetto alla formula esatta.


Potresti fornire qualche dettaglio in più su come α=π/8è arrivato attraverso Elfving (1947)? Non è ovvio nell'articolo.
Anthony,

1
Anthony - I am relying on the textbook Mathematical Statistics, by Samuel Wilks, pub. Wiley (1962). Exercise 8.21 on p. 249 states: "If x_(1), x_(n) are the smallest and largest order statistics of a sample of size n from a continuous c.d.f. F(x)...the random variable 2n*sqrt{[F(x_(1))][1-F(x_(n))]} has a limit distribution as n -> infinity, with mean pi/2 and variance 4-(pi^2)/4." (Sorry I don't know markup code!) For a symmetric distribution, F(x_(1)) = 1-F(x_(n)). Thus F(x_(n)) is about pi/(4n), or x_(n) is about F^(-1)(pi/(4n)). The Blom formula uses the approximation 3/(4n).
Hal M. Switkay

This reminds me of the Infamous "π=3" bill attributed to the Indiana State Legislature. (Though the wikipedia article suggests that the popular version of the story is not accurate.)
steveo'america

7

Depending on what you want to do, this answer may or may not help - I got the following exact formula from Maple's Statistics package.

with(Statistics):
X := OrderStatistic(Normal(0, 1), 1, n):
m := Mean(X):
m;

1/2_t0n!2e1/2_t02(1/21/2erf(1/2_t02))1+n(1+n)!πd_t0

By itself this isn't very useful (and it could probably be derived fairly easily by hand, since it's the minimum of n random variables), but it does allow for quick and very accurate approximation for given values of n - much more accurate than Monte Carlo:

evalf(eval(m, n = 200));
evalf[25](eval(m, n = 200));

gives -2.746042447 and -2.746042447451154492412344, respectively.

(Full disclosure - I maintain this package.)


1
@ProbabilityIsLogic derived this integral for all order statistics in the first half of his reply.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.