Simulazione della convergenza in probabilità a una costante


9

I risultati asintotici non possono essere provati dalla simulazione al computer, perché sono affermazioni che coinvolgono il concetto di infinito. Ma dovremmo essere in grado di ottenere la sensazione che le cose marciano davvero come ci dice la teoria.

Considera il risultato teorico

limnP(|Xn|>ϵ)=0,ϵ>0

dove Xn è una funzione di n variabili casuali, diciamo identicamente e indipendentemente distribuito. Questo dice che Xn converge in probabilità a zero. L'esempio archetipo qui suppongo sia il caso in cui Xn è la media del campione meno il valore atteso comune degli iidrv del campione,

Xn=1ni=1nYiE[Y1]

DOMANDA: Come possiamo dimostrare in modo convincente a qualcuno che la relazione di cui sopra "si materializza nel mondo reale", usando i risultati della simulazione al computer da campioni necessariamente finiti?

Si prega di notare che ho scelto specificamente la convergenza a una costante .

Fornisco di seguito il mio approccio come risposta e spero per quelli migliori.

AGGIORNAMENTO: Qualcosa nella parte posteriore della mia testa mi ha infastidito e ho scoperto cosa. Ho scavato una domanda più vecchia in cui è proseguita una discussione molto interessante nei commenti a una delle risposte . Lì, @Cardinal ha fornito un esempio di uno stimatore che è coerente ma la sua varianza rimane diversa da zero e finita in modo asintotico. Quindi una variante più dura della mia domanda diventa: come dimostriamo mediante simulazione che una statistica converge in probabilità in una costante, quando questa statistica mantiene una varianza diversa da zero e finita in modo asintotico?


@Glen_b Venendo da te, questo è l'equivalente di un badge. Grazie.
Alecos Papadopoulos,

Ho pensato a questo ogni tanto e tutto quello che mi è venuta in mente è quell'argomento "concentrazione attorno alla media"; Spero che alcune delle persone intelligenti qui abbiano il tempo di scrivere qualcosa di interessante! (+1 ovviamente!)
ekvall

Risposte:


2

Penso a come a una funzione di distribuzione (complementare nel caso specifico). Dal momento che voglio usare la simulazione al computer per mostrare che le cose tendono al modo in cui ci dice il risultato teorico, devo costruire la funzione di distribuzione empirica dio la distribuzione empirica della frequenza relativa, e quindi in qualche modo mostra che all'aumentare di , i valori di concentrare "sempre di più" a zero. | X n | n | X n |P()|Xn|n|Xn|

Per ottenere una funzione di frequenza relativa empirica, ho bisogno di (molto) più di un campione di dimensioni crescenti, perché all'aumentare delle dimensioni del campione, la distribuzione dimodifiche per ogni diverso . n|Xn|n

Quindi ho bisogno di generare dalla distribuzione di , campioni "in parallelo", diciamo che vanno in migliaia, ciascuno di alcune dimensioni iniziali , diciamo che vanno in decine di migliaia. Devo quindi calcolare il valore dida ciascun campione (e per la stessa ), ovvero ottenere l'insieme di valori . m m n n | X n | n { | x 1 n | , | x 2 n | , . . . , | x m n | }Yimmnn|Xn|n{|x1n|,|x2n|,...,|xmn|}

Questi valori possono essere usati per costruire una distribuzione di frequenza relativa empirica. Avendo fiducia nel risultato teorico, mi aspetto che "molto" dai valori disarà "molto vicino" allo zero, ma ovviamente non tutti. |Xn|

Quindi per mostrare che i valori dimarciare verso lo zero in numero sempre maggiore, dovrei ripetere il processo, aumentando la dimensione del campione per dire , e mostrare che ora la concentrazione a zero "è aumentata". Ovviamente per dimostrare che è aumentato, si dovrebbe specificare un valore empirico per .2 n ϵ|Xn|2nϵ

Sarebbe abbastanza? Potremmo in qualche modo formalizzare questo "aumento della concentrazione"? Questa procedura, se eseguita in più fasi di "aumento della dimensione del campione" e l'una più vicina all'altra, potrebbe fornirci una stima del tasso di convergenza effettivo , ovvero qualcosa come "massa di probabilità empirica che si sposta al di sotto della soglia per ogni passo "di, diciamo, mille? n

Oppure, esamina il valore della soglia per cui, ad esempio, il % della probabilità si trova al di sotto, e vedi come questo valore di viene ridotto in grandezza?ϵ90ϵ

UN ESEMPIO

Considera come e così U ( 0 , 1 )YiU(0,1)

|Xn|=|1ni=1nYi12|

Generiamo prima campioni di dimensioni ciascuno. La distribuzione empirica della frequenza relativa disembra n = 10 , 000 | X 10 , 000 |m=1,000n=10,000|X10,000|inserisci qui la descrizione dell'immagine

e notiamo che il % dei valori disono più piccoli di . | X 10 , 000 | 0.004615590.10|X10,000|0.0046155

Quindi aumento la dimensione del campione a . Ora la distribuzione empirica della frequenza relativa disembra e notiamo che il % dei valori disono inferiori a . In alternativa, ora il % dei valori scende al di sotto di .| X 20 , 000 | 91,80 | X 20 , 000 | 0,0037101 98,00 0,0045217n=20,000|X20,000|inserisci qui la descrizione dell'immagine91.80|X20,000|0.003710198.000.0045217

Saresti persuaso da una tale dimostrazione?


3
No, non sarei persuaso da una tale dimostrazione, se fosse tutto ciò che viene offerto. Non è in grado di distinguere tra il risultato dichiarato e un risultato in cui vi è una quantità molto piccola di contaminazione da una distribuzione diversa da zero. Qualsiasi simulazione al computer, per essere veramente persuasiva, deve essere accompagnata da un ragionamento che escluderebbe tali fenomeni. (Di recente ho condotto una serie di simulazioni che hanno raggiunto una dimensione del campione di - che non è un errore di battitura - ma non è stato ancora persuaso dai risultati, sebbene fossero molto suggestivi!)101000
whuber

1
@whuber Quello che scrivi sembra molto interessante. Queste simulazioni sono state menzionate in base ad alcuni dati reali iniziali, da quali distribuzioni sono stati generati i dati stimati e quindi quelli artificiali aggiuntivi? O era artificiale sin dall'inizio? Se la riservatezza non è un problema e il tempo lo permette, personalmente vorrei davvero vedere una tua risposta che fornisse un assaggio di come queste simulazioni si sono evolute e perché il dubbio è rimasto.
Alecos Papadopoulos,

1
Erano dati artificiali. Ho eseguito queste simulazioni per supportare un commento su stats.stackexchange.com/questions/104875/… . Vedrai immediatamente come può essere eseguita una simulazione così grande: per generare un campione di da una distribuzione di Bernoulli devi solo disegnare un singolo valore da una distribuzione Binomiale . Quando è sufficientemente grande, potresti anche trarre un valore da una distribuzione Normale . Il trucco principale è farlo con una precisione di cifre :-). ( 1 / 2 ) ( N , 1 / 2 ) N ( N / 2 , N(1/2)(N,1/2)N1000(N/2,N/2)1000
whuber

@Whuber Grazie, ci lavorerò. A proposito, la domanda che menzioni, la risposta in essa e i tuoi commenti, mi hanno spinto a indagare più a fondo sia la distribuzione asintotica della varianza del campione da campioni non normali, sia l'applicabilità del teorema di Slutsky nel modo in cui è usato nella risposta. Spero che alla fine avrò alcuni risultati da condividere.
Alecos Papadopoulos,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.