Asintotici di campionamento ipercubo latino


11

Sto cercando di costruire una prova per un problema su cui sto lavorando e una delle ipotesi che sto formulando è che l'insieme di punti da cui sto campionando è denso su tutto lo spazio. In pratica, sto usando il campionamento latino dell'ipercubo per ottenere i miei punti sull'intero spazio del campione. Quello che vorrei sapere è se i campioni di ipercubo latino sono densi su tutto lo spazio se si lascia che la dimensione del campione tenda a ? In tal caso, una citazione per questo fatto sarebbe molto apprezzata.


4
Sì, supponendo una distribuzione continua, perché per qualsiasi è possibile impostare il numero di divisioni in modo tale che tutti gli intervalli per variabile abbiano larghezza . Pertanto, almeno un iperintervallo (cioè il volume del campione) è strettamente contenuto da un ipercubo di larghezza attorno a qualsiasi punto scelto. (Commenta, non rispondi, poiché tutto quello che so di LHS proviene da Wikipedia a partire da dieci minuti fa ...)ϵ>0<ϵ/2ϵ
Creosote,

Questo è vero, ma non credo che possa essere facilmente utilizzato per mostrare la densità di grandi campioni di Hypercube latino. La ragione di ciò è che i punti campionati in LHS non sono indipendenti: l'esistenza di un punto campione all'interno di uno specifico iperintervalco impedisce a qualsiasi altro punto campione di apparire nella stessa riga / colonna (o qualunque sia il termine multidimensionale per questo) .
S. Catterall Ripristina Monica il

@Creosote pensi di poter formalizzare di più la tua risposta?

@RustyStatistician, ti preghiamo di espandere il tuo post di apertura per spiegare, in modo formale come richiesto dalla tua prova, cosa intendi per "l'insieme di punti da cui sto campionando è denso su tutto lo spazio". Grazie.
Creosoto,

Se prendo un campione iniziale di Hypercube latino in cui è così grande, lo consideriamo infinito, quel campione è denso? n

Risposte:


6

Risposta breve: Sì, in modo probabilistico. È possibile dimostrare che, data qualsiasi distanza , qualsiasi sottoinsieme finito dello spazio di campionamento e qualsiasi "tolleranza" prescritta , per dimensioni del campione adeguatamente grandi possiamo essere certo che la probabilità che esista un punto campione entro una distanza di è per tutti .{ x 1 , , x m } δ > 0 ϵ x i > 1 - δ i = 1 , , mϵ>0{x1,,xm}δ>0ϵxi>1δi=1,,m

Risposta lunga: non sono a conoscenza di alcuna citazione direttamente pertinente (ma vedi sotto). La maggior parte della letteratura sul campionamento latino Hypercube (LHS) riguarda le sue proprietà di riduzione della varianza. L'altro problema è: cosa significa che la dimensione del campione tende a ? Per campionamento casuale semplice IID, un campione di dimensione può essere ottenuto da un campione di dimensione aggiungendo un campione ulteriore indipendente. Per LHS non penso che tu possa farlo poiché il numero di campioni è specificato in anticipo come parte della procedura. Così sembra che si dovrà prendere una serie di indipendenti campioni LHS di dimensioni .n n - 1 1 , 2 , 3 , . . .nn11,2,3,...

È necessario inoltre un modo per interpretare "denso" nel limite poiché la dimensione del campione tende a . La densità non sembra reggere in modo deterministico per LHS, ad esempio in due dimensioni, è possibile scegliere una sequenza di campioni LHS di dimensioni tale che aderiscano tutti alla diagonale di . Quindi sembra necessario un qualche tipo di definizione probabilistica. Sia, per ogni , essere un campione di dimensione generato secondo un meccanismo stocastico. Supponiamo che, per diversi , questi campioni siano indipendenti. Quindi per definire la densità asintotica potremmo richiederlo, per ogni , e per ogni1,2,3,...[0,1)2nXn=(Xn1,Xn2,...,Xnn)nnϵ>0x nello spazio campione (assunto come ), abbiamo ( come da ).[0,1)dnP(min1knXnkxϵ)0n

Se il campione viene ottenuto prelevando campioni indipendenti dalla distribuzione ('campionamento casuale IID'), allora dove è il volume della sfera di raggio dimensionale . Quindi certamente il campionamento casuale IID è asintoticamente denso. n U ( [ 0 , 1 ) d ) P ( m i n 1 k nX n k - x ϵ ) = n k = 1 P ( X n k - x ϵ ) ( 1 - v ϵ 2 - d ) nXnnU([0,1)d)v ϵ d ϵ

P(min1knXnkxϵ)=k=1nP(Xnkxϵ)(1vϵ2d)n0
vϵdϵ

Consideriamo ora il caso in cui i campioni sono ottenuti da LHS. Il teorema 10.1 in queste note afferma che i membri del campione sono tutti distribuiti come . Tuttavia, le permutazioni utilizzate nella definizione di LHS (sebbene indipendenti per dimensioni diverse) inducono una certa dipendenza tra i membri del campione ( ), quindi è meno ovvio che la proprietà della densità asintotica regge.X n U ( [ 0 , 1 ) d ) X n k , k nXnXnU([0,1)d)Xnk,kn

Correggi e . Definire . Vogliamo mostrare che . Per fare questo, possiamo usare la proposizione 10.3 in quelle note , che è una sorta di teorema del limite centrale per il campionamento latino dell'ipercubo. Definisci con se è nella sfera del raggio attorno a , altrimenti. Quindi la Proposizione 10.3 ci dice che dove ex [ 0 , 1 ) d P n = P ( m i n 1 k nX n k - x ϵ ) P n0 f : [ 0 , 1 ] dR f ( z ) = 1 z ϵ x f ( z )ϵ>0x[0,1)dPn=P(min1knXnkxϵ)Pn0f:[0,1]dRf(z)=1zϵxY n : = f(z)=0μ= [ 0 , 1 ] d f(z)dz μ L H S = 1Yn:=n(μ^LHSμ)dN(0,Σ)μ=[0,1]df(z)dzμ^LHS=1ni=1nf(Xni) .

Prendi . Alla fine, per abbastanza grande , avremo . Quindi alla fine avremo . Pertanto , dove è il normale PDF standard. Poiché era arbitrario, ne consegue che come richiesto.n - L>0nPn=P(Yn=-nμ<Llim supPnlim supP(Yn<-L)=Φ( - LPn=P(Yn=nμ)P(Yn<L)ΦLPn0lim supPnlim supP(Yn<L)=Φ(LΣ)ΦLPn0

Ciò dimostra la densità asintotica (come definita sopra) sia per il campionamento casuale sia per l'LHS. Informalmente, ciò significa che, dato qualsiasi e qualsiasi nello spazio di campionamento, la probabilità che il campione raggiunga entro di può essere fatta vicino a 1 a piacere scegliendo la dimensione del campione sufficientemente grande. È facile estendere il concetto di densità asintotica in modo da applicarlo a sottoinsiemi finiti dello spazio campione - applicando ciò che già sappiamo a ciascun punto del sottoinsieme finito. Più formalmente, ciò significa che possiamo mostrare: per qualsiasi e qualsiasi sottoinsieme finito dello spazio campione,x ε x ε > 0 { x 1 , . . . , x m } m i n 1 j m P ( m i n 1 k nX n k - x j< ϵ ) 1 n ϵxϵxϵ>0{x1,...,xm}min1jmP(min1knXnkxj<ϵ)1 (come ).n


Ho due domande: 1) Se hai solo un campione di dimensione dove è grande, cambia l'argomento? E 2) I campioni di ipercubi latini possono trovarsi su qualsiasi intervallo di valori (non necessariamente solo (0,1)), quindi cambia anche la risposta? nnn

Inoltre, saresti disposto a spiegare perché per abbastanza grandi avremo ? Presumo che ciò significhi che per grande , va a zero, perché nella distribuzione è una ? - nnμnμ^LHSN(0,Σ)

@RustyStatistician Tutto è definito in termini di campioni finiti, vale a dire ma di grandi dimensioni. Ho aggiunto qualche spiegazione aggiuntiva alla fine per spiegare cosa sta succedendo. Altre gamme di valori possono essere facilmente adattate ((0,1) non è speciale), purché il volume dello spazio campione sia finito. n<
S. Catterall Ripristina Monica il

Puoi approfondire la tua breve risposta?

@RustyStatistician La risposta breve è un sommario informale della mia lunga risposta che, penso che tu sia d'accordo, è già abbastanza elaborata! Quindi, come suggerito sopra, sarebbe bene se tu potessi riscrivere la tua domanda in termini più formali in modo che io sappia se la mia tentata risposta è sulla strada giusta (in termini di risposta alla tua domanda prevista) o meno.
S. Catterall Ripristina Monica il

3

Non sono sicuro che sia esattamente quello che vuoi, ma qui va.

Stai campionando LHS punti da , diciamo. Discuteremo in modo molto informale che, per qualsiasi , il numero previsto di cuboidi vuoti (iper) di dimensione in ogni dimensione va a zero come .n[0,1)dϵ>0ϵn

Lascia che modo che se dividiamo uniformemente in piccoli cuboidi - diciamo microcuboidi - di larghezza allora ogni larghezza- cubo di cubo contiene almeno un microcuboid. Quindi, se possiamo mostrare che il numero previsto di microcuboidi non campionati è zero, nel limite da , allora abbiamo finito. (Si noti che i nostri microcuboidi sono disposti su una griglia regolare, ma i cocubidi possono trovarsi in qualsiasi posizione.)m=2/ϵ[0,1)dmd1/mϵnϵ

La possibilità di perdere completamente un dato microcuboid con il primo punto di campionamento è , indipendentemente da , poiché la prima serie di coordinate di campionamento (primo punto di campionamento) può essere scelta liberamente. Dato che i primi pochi punti di campionamento hanno perso tutti quel microcuboide, i punti di campionamento successivi troveranno più difficile perdere (in media), quindi la probabilità che manchi tutti i punti è inferiore a .1mdndn(1md)n

Ci sono microcuboidi in , quindi il numero previsto che viene perso è delimitato sopra da - perché si aggiungono le aspettative - che è zero nel limite come .md[0,1)dmd(1md)nn


Aggiornamenti ...

(1) Ecco un'immagine che mostra come, per un dato , puoi scegliere abbastanza grande in modo che una griglia di "microcuboidi" (quadrati in questa illustrazione bidimensionale) sia garantita avere almeno un microcuboid all'interno qualsiasi regione di dimensioni . Ho mostrato due regioni "casualmente" scelte e ho colorato in viola i due microcuboidi che contengono.ϵmm×m ϵ×ϵϵ×ϵ

inserisci qui la descrizione dell'immagine

(2) Considerare qualsiasi particolare microcuboid. Ha volume , una frazione dell'intero spazio. Quindi il primo campione LHS - che è l'unico scelto completamente liberamente - lo mancherà con probabilità . L'unico fatto importante è che questo è un valore fisso (lasceremo , ma manterremo costante) che è inferiore a .(1/m)dmd1mdnm1

(3) Ora pensa al numero di punti campione . Ho illustrato nella foto. LHS funziona in una sottile trama di questi nanocuboidi di dimensioni super-minuscole (se vuoi), non più grandi Microcuboidi", ma in realtà non è importante nella dimostrazione. La dimostrazione necessita solo dell'affermazione leggermente agitando la mano che diventa gradualmente più difficile, in media, continuare a perdere un determinato microcuboid mentre si gettano più punti. Quindi era una probabilità di per il primo punto LHS mancante, ma inferiore a per tutti mancanti: questo è zero nel limite comen = 6 m n - 1 × n - 1 m - 1 × m - 1 1 - m - d ( 1 - m - d ) n n n n>mn=6mn1×n1m1×m11md(1md)n nn .

(4) Tutti questi epsilon vanno bene per una prova ma non sono grandi per il tuo intuito. Quindi ecco un paio di immagini che illustrano e punti campione, con l'area rettangolare vuota più grande evidenziata. (La griglia è la griglia di campionamento LHS - i "nanocuboidi" citati in precedenza.) Dovrebbe essere "ovvio" (in un senso vago e intuitivo) che l'area vuota più grande si riduca a dimensioni arbitrariamente piccole come il numero di punti di campionamento .n = 50 n n=10n=50n

inserisci qui la descrizione dell'immagine


Questo argomento vale per qualsiasi intervallo generale? Invece di ? [0,1)

Sì, per qualsiasi dimensione finita. Dovrebbe essere più chiaro ora che ho corretto la prova.
Creosoto,

è possibile fornire un'immagine 1-d o anche 2-d di questa prova? Ci sono abbastanza perso.

Fatto. Felice di fare ulteriori domande se necessario.
Creosote,

Fantastico grazie! Questo sicuramente aiuta ora con l'intuizione.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.