Spiegazione intuitiva della convergenza nella distribuzione e convergenza nella probabilità


26

Qual è la differenza intuitiva tra una variabile casuale che converge in probabilità rispetto a una variabile casuale che converge in distribuzione?

Ho letto numerose definizioni ed equazioni matematiche, ma questo non aiuta molto. (Tieni presente che sono uno studente universitario che studia economia.)

Come può una variabile casuale convergere in un singolo numero, ma anche convergere in una distribuzione?


1
"Come può una variabile casuale convergere in un singolo numero ma anche convergere in una distribuzione?" - Penso che trarrai beneficio dal chiarire se la tua confusione è che i camper in generale possono convergere in singoli numeri o in un'intera distribuzione (meno di un mistero quando ti rendi conto che il "numero singolo" è essenzialmente un tipo speciale di distribuzione) o se la tua confusione è come un singolo camper potrebbe convergere in una costante secondo una modalità di convergenza, ma in una distribuzione secondo un'altra modalità di convergenza?
Silverfish,

1
Come @CloseToC, mi chiedo se hai riscontrato regressioni in cui da un lato ti è stato detto che è "asintoticamente normale", ma dall'altro ti è stato detto che converge al vero . ßβ^ ßβ
Silverfish,

@Silverfish, in realtà non l'ho fatto!
Nicefella,

Risposte:


25

Come può un numero casuale convergere in una costante?

Supponiamo che tu abbia palline nella scatola. Puoi sceglierli uno per uno. Dopo aver scelto palle, ti chiedo: qual è il peso medio delle palle nella scatola? La tua migliore risposta sarebbe . Ti rendi conto che stesso è il valore casuale? Dipende da quali palle hai scelto per primo.N k ˉ x k = 1Nkk k i = 1 xi ˉ x kkx¯k=1kki=1xix¯kk

Ora, se continui a tirare le palline, ad un certo punto non ci saranno più palline nella scatola e otterrai .ˉ x Nμx¯Nμ

Quindi, ciò che abbiamo è la sequenza casuale che converge alla costante . Quindi, la chiave per comprendere il tuo problema con la convergenza in probabilità è rendersi conto che stiamo parlando di una sequenza di variabili casuali, costruita in un certo modo .ˉ x 1,, ˉ x k,, ˉ x N, ˉ x N, ˉ x N, ˉ x N=μ

x¯1,,x¯k,,x¯N,x¯N,x¯N,
x¯N=μ

Quindi, otteniamo numeri casuali uniformi , dove . Diamo un'occhiata alla sequenza casuale , dove . Il è un valore casuale, in quanto tutti i suoi termini sono valori casuali. Non possiamo prevedere cosa sarà . Tuttavia, si scopre che possiamo affermare che le distribuzioni di probabilità di saranno sempre più simili allo standard normale . Ecco come convergono le distribuzioni.e 1 , e 2 , e i[ 0 , 1 ] ξ 1 , ξ 2 , ξ k = 1e1,e2,ei[0,1]ξ1,ξ2,K12ki=1(ei-12 )ξkξkξkN(0,1)ξk=1k12ki=1(ei12)ξkξkξkN(0,1)


1
Qual è la sequenza di variabili casuali nel tuo primo esempio dopo aver raggiunto N? Come viene valutato il limite?
ekvall,

È solo un'intuizione. Immagina la scatola infinita, quindi il tuo stimatore converge nella media della popolazione . ˉ xμx¯μ
Aksakal,

21

Non è chiaro quanta intuizione potrebbe avere un lettore di questa domanda sulla convergenza di qualcosa, per non parlare delle variabili casuali, quindi scriverò come se la risposta fosse "molto piccola". Qualcosa che potrebbe aiutare: piuttosto che pensare "come può convergere una variabile casuale", chiedi come può convergere una sequenza di variabili casuali. In altre parole, non è solo una singola variabile, ma un elenco (infinitamente lungo!) Di variabili, e quelle più avanti nell'elenco si stanno avvicinando sempre di più a ... qualcosa. Forse un singolo numero, forse un'intera distribuzione. Per sviluppare un'intuizione, dobbiamo capire cosa significa "sempre più vicino". Il motivo per cui esistono così tante modalità di convergenza per variabili casuali è che esistono diversi tipi di "

Ricapitoliamo innanzitutto la convergenza delle sequenze di numeri reali. In possiamo usare la distanza euclideaper misurare quanto vicino è . Considera . Quindi la sequenza inizia e io affermiamo che converge in . Chiaramente si avvicina a , ma è anche vero che si avvicina aR | x - y | x y x n = n + 1R |xy|xyn =1+1n x1,xn=n+1n=1+1nx 2 ,x 3 , 2 , 3x1,x2,x3,2 ,43 ,54 ,65 ,xn1xn1xn0,90,50,910,90,052,32,43,54,65,xn1Xn1Xn0.9. Ad esempio, dal terzo termine in poi, i termini nella sequenza sono una distanza di o inferiore a . Ciò che conta è che si avvicinino arbitrariamente a , ma non a . Nessun termine nella sequenza arriva mai entro di , per non parlare di rimanere così vicino per i termini successivi. Al contrario quindi è da e tutti i termini successivi sono entro di , come mostrato di seguito.0.50.910.90.05 0,9 x 20 = 1,05 0,05 1 0,05 10.9X20= 1,050.0510.051

Convergenza di (n + 1) / n in 1

Potrei essere più rigoroso e richiedere che i termini ottengano e rimangano entro su , e in questo esempio trovo che ciò sia vero per i termini e successivi. Inoltre potrei scegliere qualsiasi soglia fissa di vicinanza , non importa quanto severa (tranne per , ovvero il termine in realtà è ), e infine la condizione sarà soddisfatto per tutti i termini oltre un certo termine (simbolicamente: per , dove il valore di dipende da quanto rigoroso un0,001 1 N = 1000 ϵ ϵ = 0 1 | x n - x | < ϵ0.0011N= 1000εϵ = 01| Xn- x | < ϵ n > N N ϵ x n = 1 + sin ( n )n > NNεHo scelto). Per esempi più sofisticati, nota che non sono necessariamente interessato alla prima volta che la condizione è soddisfatta: il termine successivo potrebbe non obbedire alla condizione e va bene, purché riesca a trovare un termine più lungo lungo la sequenza per la quale la condizione è soddisfatta e rimane soddisfatta per tutti i termini successivi. Lo per , che converge anche in , con nuovamente ombreggiato.n 1ϵ=0,05Xn= 1 + sin( n )n1ϵ = 0,05

Convergenza di 1 + sin (n) / n in 1

Consideriamo ora e la sequenza di variabili aleatorie . Questa è una sequenza di camper con , , e così via. In che senso possiamo dire che questo si sta avvicinando alla stessa?X U ( 0 , 1 ) X n = ( 1 + 1XU( 0 , 1 )n )XX1=2XX2=3Xn= ( 1 + 1n) XX1= 2 X2 XX3=4X2= 32X3 XXX3= 43XX

Poiché e sono distribuzioni, non solo numeri singoli, la condizione ora è un evento : anche per un e fisso questo potrebbe o non potrebbe accadere . Considerando la probabilità che venga raggiunto, si genera convergenza nella probabilità . Per vogliamo la probabilità complementare - intuitivamente, la probabilità che sia leggermente diversa (almeno da ) a - a diventare arbitrariamente piccolo, per sufficientemente grandeX n X | X n - X | < ϵ n ϵ X n p X P ( | X n - X |ϵ ) X n ϵ X n ϵ P ( | X 1 - X |ϵ ) P ( | X 2 - X |ϵ ) P ( | 3XnX| Xn- X| <ϵnεXnpXP( | Xn- X| ϵ)XnεXn . Per un fisso questo dà origine a un'intera sequenza di probabilità , , , , , e se questa sequenza di probabilità converge a zero (come accade nel nostro esempio) allora diciamo converge in probabilità a . Si noti che i limiti di probabilità sono spesso costanti: ad esempio nelle regressioni in econometria, vediamo quando aumentiamo la dimensione del campione . Ma quiεP( | X1- X| ϵ)P( | X2- X| ϵ) X - X |ε ) ... X n X plim ( β ) = βP( | X3- X| ϵ)...XnXplim(β^)=βn plim ( X n ) = X U ( 0 , 1 )nplim(Xn)=XU(0,1). In effetti, la convergenza in probabilità significa che è improbabile che e differiscano di molto in una particolare realizzazione - e posso rendere la probabilità che e siano più lontani di parte quanto mi piace, purché scelga un sufficientemente grande . X n X X n X ε nXnXXnXϵn

Un senso diverso in cui si avvicina a è che le loro distribuzioni sembrano sempre più simili. Posso misurarlo confrontando i loro CDF. In particolare, scegli alcune in cui è continuo (nel nostro esempio quindi il suo CDF è continuo ovunque e qualsiasi lo farà) e valuta il CDF della sequenza di s lì. Questo produce un'altra sequenza di probabilità, , , , e questa sequenza converge in . I CDF valutati aX n X x F X ( x ) = P ( X x ) X U ( 0 , 1 ) x X n P ( X 1x ) P ( X 2x ) P ( X 3x ) P (XnXxFX(x)=P(Xx)XU(0,1)xXnP(X1x)P(X2x)P(X3x) X x ) x X n X x xP(Xx)x per ciascuno degli diventa arbitrariamente vicino al CDF di valutato in . Se questo risultato è valido indipendentemente da quale abbiamo scelto, allora converge in nella distribuzione . Si scopre questo accade qui, e non dovremmo essere sorpresi dal momento che la convergenza in probabilità di implica convergenza in distribuzione a . Si noti che non può essere il caso in cui converga in probabilità in una particolare distribuzione non degenerata, ma converge in distribuzione in una costante.XnXxxX n X X X X nXnX XXXn (Qual è stato forse il punto di confusione nella domanda originale? Ma nota un chiarimento in seguito.)

Per un esempio diverso, lascia . Ora abbiamo una sequenza di camper, , , , ed è chiaro che la distribuzione di probabilità sta degenerando in un picco in . Consideriamo ora la distribuzione degenerata , con cui intendo . È facile vedere che per ogni , la sequenza converge a zero in modo che converga a in probabilità. Di conseguenza,Y nU ( 1 , n + 1n )Y1U(1,2)Y2U(1,3YnU(1,n+1n)Y1U(1,2)2 )Y3U(1,4Y2U(1,32)3 )y=1Y=1P(Y=1)=1ϵ>0P(|Yn-Y|ϵ)YnYYnYFY(y)Yy=1yP(Y1y)P(Y2y)Y3U(1,43)y=1Y=1P(Y=1)=1ϵ>0P(|YnY|ϵ)YnYYndeve anche convergere in nella distribuzione, cosa che possiamo confermare considerando i CDF. Poiché il CDF di è discontinuo in non è necessario considerare i CDF valutati a quel valore, ma per i CDF valutati in qualsiasi altro possiamo vedere che la sequenza , , , converge in che è zero per e uno per . Questa volta, poiché la sequenza di camper converte in probabilità in una costante, converge anche in distribuzione in una costante.YFY(y)Yy=1yP(Y1y)P(Y2y) P ( Y 3y ) P ( YP(Y3y)y ) y < 1 y > 1P(Yy)y<1y>1

Alcuni chiarimenti finali:

  • Sebbene la convergenza nella probabilità implichi la convergenza nella distribuzione, il contrario è falso in generale. Solo perché due variabili hanno la stessa distribuzione, non significa che debbano essere probabilmente vicine l'una all'altra. Per un esempio banale, prendi e . Quindi e hanno entrambi esattamente la stessa distribuzione (una probabilità del 50% ciascuno di essere zero o uno) e la sequenza cioè la sequenza che va converge banalmente nella distribuzione in (il CDF in qualsiasi posizione nella sequenza è uguale al CDF di ). Ma eX Bernouilli ( 0,5 ) Y = 1 - X X Y X n = X X , X , X , X , Y Y Y X P ( | X n - Y |0,5 ) = 1 X n YXBernouilli(0.5)Y=1XXYXn=XX,X,X,X,YYYXsono sempre uno a parte, quindi quindi non tende a zero, quindi non converge in in probabilità. Tuttavia, se c'è una convergenza nella distribuzione a una costante , ciò implica una convergenza in probabilità a quella costante (intuitivamente, più avanti nella sequenza diventerà improbabile che sia lontano da quella costante).P(|XnY|0.5)=1XnY
  • Come i miei esempi chiariscono, la convergenza in probabilità può essere una costante ma non deve esserlo; la convergenza nella distribuzione potrebbe anche essere una costante. Non è possibile convergere in probabilità in una costante ma convergere nella distribuzione in una particolare distribuzione non degenerata, o viceversa.
  • È possibile che tu abbia visto un esempio in cui, ad esempio, ti è stato detto che una sequenza converge un'altra sequenza ? Potresti non aver capito che si trattava di una sequenza, ma il regalo sarebbe stato se fosse una distribuzione che dipendeva anche da . È possibile che entrambe le sequenze convergano in una costante (ovvero distribuzione degenerata). La tua domanda suggerisce che ti stai chiedendo come una particolare sequenza di camper potrebbe convergere sia in una costante che in una distribuzione; Mi chiedo se questo è lo scenario che stai descrivendo.X n Y n nXn Ynn
  • La mia attuale spiegazione non è molto "intuitiva" - avevo intenzione di rendere grafica l'intuizione, ma non ho ancora avuto il tempo di aggiungere i grafici per i camper.

16

Nella mia mente, le risposte esistenti trasmettono tutti punti utili, ma non chiariscono un'importante distinzione tra i due modi di convergenza.

Consenti a , e essere variabili casuali. Per intuizione, immagina che a vengano assegnati i loro valori da qualche esperimento casuale che cambia un po 'per ogni , dando una sequenza infinita di variabili casuali, e supponiamo che ottenga il suo valore assegnato da qualche altro esperimento casuale.X n n = 1 , 2 , Y X n n YXnn=1,2,YXnnY

Se , abbiamo, per definizione, che la probabilità che e differiscano l'una dall'altra di una quantità arbitrariamente piccola si avvicina a zero come , per una quantità minima quanto te piace. A grandi linee, nella sequenza di , siamo sicuri che e prenderanno valori molto vicini tra loro.X n p Y Y X n n X n X n YXnpYYXnnXnXnY

D'altra parte, se abbiamo solo convergenza nella distribuzione e non convergenza nella probabilità, allora sappiamo che per grande , è quasi uguale a , per quasi ogni . Si noti che questo non dice nulla su come chiudere i valori di e sono gli uni agli altri. Ad esempio, se , e quindi è anche distribuito in questo modo per grande , allora sembra intuitivamente probabile che i valori di en P ( X nx ) P ( Y x ) x X n Y Y N ( 0 , 10 10 ) X nnP(Xnx)P(Yx)xXnYYN(0,1010)Xn n X n Y N ( 0 , 10 10 )nXnYdifferirà di molto in una data osservazione. Dopotutto, se non vi sono restrizioni diverse dalla convergenza nella distribuzione, possono benissimo per tutte le ragioni pratiche essere variabili .N(0,1010)

(In alcuni casi potrebbe non avere nemmeno senso confrontare e , forse non sono nemmeno definiti sullo stesso spazio di probabilità. Questa è una nota più tecnica, però.)X n YXnY


1
(+1) Non hai nemmeno bisogno di variare - Stavo per aggiungere alcuni dettagli su questo alla mia risposta, ma ho deciso di non farlo per motivi di lunghezza. Ma penso che valga la pena di sottolineare. X nXn
Silverfish

12

Quello che non capisco è come può una variabile casuale convergere in un singolo numero ma anche convergere in una distribuzione?

Se stai imparando l'econometria, probabilmente ti stai chiedendo questo nel contesto di un modello di regressione. Converge in una distribuzione degenerata, in una costante. Ma qualcos'altro ha una distribuzione limitante non degenerata.

Β nβN β nnββ^n converge in probabilità a se vengono soddisfatti i presupposti necessari. Ciò significa che scegliendo una dimensione del campione abbastanza grande , lo stimatore sarà il più vicino possibile al parametro vero, con la probabilità che sia più lontano quanto piccolo. Se pensi di tracciare l'istogramma di per vari , alla fine sarà solo un picco centrato su .βNβ^nnβ

In che senso converge nella distribuzione? Converge anche in una costante. Non a una variabile casuale normalmente distribuita. Se calcoli la varianza di vedi che si restringe con . Quindi alla fine andrà a zero in abbastanza grande , motivo per cui lo stimatore va su una costante. Ciò che converge in una variabile casuale normalmente distribuita èΒ n β nnnβ^nβ^nnn

n ( β n-β)n(β^nβ) . Se ne prendi la varianza vedrai che non si restringe (né cresce) con . In campioni molto grandi, questo sarà approssimativamente sotto ipotesi standard. Possiamo quindi usare questa approssimazione per approssimare la distribuzione di in quel grande campione.n N ( 0 , σ 2n)N(0,σ2)ˆβnβ^n

Ma hai ragione sul fatto che anche la distribuzione limitante di è una costante.β nβ^n


1
Consideralo come "guardare con una lente d'ingrandimento", con l'ingrandimento che aumenta con alla velocità . ^βnβn^nnnn
kjetil b halvorsen,

7

Vorrei provare a dare una risposta molto breve, usando alcuni esempi molto semplici.

Convergenza nella distribuzione

Consenti a , per tutti n, quindi converge in nella distribuzione. Tuttavia, la casualità nella realizzazione di non cambia nel tempo. Se dobbiamo prevedere il valore di , l'aspettativa del nostro errore non cambia nel tempo.XnN(1n,1)XnN(1n,1)XnXnXN(0,1)XN(0,1)XnXnXnXn

Convergenza in probabilità

Ora, considera la variabile casuale che assume valore con probabilità e altrimenti. Dato che va all'infinito, siamo sempre più sicuri che sarà uguale a . Quindi, diciamo che converge in probabilità a . Si noti che ciò implica anche che converge nella distribuzione su .YnYn0011n11n11nnYnYn00Yn0Yn0

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.