Il ricampionamento bootstrap può essere utilizzato per calcolare un intervallo di confidenza per la varianza di un set di dati?


9

So che se ricampiona più volte da un set di dati e calcoli la media ogni volta, questi mezzi seguiranno una distribuzione normale (da parte del CLT). Pertanto, è possibile calcolare un intervallo di confidenza sulla media del set di dati senza fare ipotesi sulla distribuzione di probabilità del set di dati.

Mi chiedevo se potevi fare qualcosa di simile per la varianza. Cioè, se dovessi ripetere il campionamento da un set di dati più volte e calcolare la varianza ogni volta, queste varianze seguiranno una certa distribuzione (indipendentemente da quale fosse la distribuzione di probabilità originale del set di dati)?

So che se quel set di dati originale è normale, le varianze seguiranno una distribuzione chi-quadrata. Ma che dire nel caso in cui non sia normale?

Risposte:


10

Il ricampionamento Bootstrap può essere utilizzato per calcolare un intervallo di confidenza per la varianza di un set di dati?

Sì, proprio come con molte altre statistiche.

So che se ricampiona più volte da un set di dati e calcoli la media ogni volta, questi mezzi seguiranno una distribuzione normale (da parte del CLT).

Non è sempre il caso che se si avvia bootstrap un mezzo il bootstrap significa seguire una distribuzione normale, anche per le distribuzioni a cui si applica il CLT.

n=100

inserisci qui la descrizione dell'immagine

Non è lontanamente normale.

L'esempio originale è costituito da novantasette valori "0" e un "1", un "2" e un "100".

Ecco il codice (R) che ho eseguito per generare la trama sopra:

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

Il problema è che in questo caso la dimensione del campione (100) è troppo piccola per essere applicata dal CLT con questo tipo di forma di distribuzione; non importa quante volte lo ricampioniamo.

Tuttavia, se la dimensione del campione originale è molto più grande, la distribuzione del ricampionamento del campione significa che qualcosa del genere avrà un aspetto più normale (sebbene sempre discreto).

Ecco gli ecdfs quando si ricampiona i dati sopra (nero) e per valori nelle stesse proporzioni ma con dieci volte più valori (rosso; cioè, n = 1000):

inserisci qui la descrizione dell'immagine

Come vediamo, la funzione di distribuzione durante il ricampionamento del campione di grandi dimensioni sembra molto più normale.

se dovessi ripetere il campionamento da un set di dati più volte e calcolare la varianza ogni volta, queste varianze seguiranno una certa distribuzione

No, per lo stesso motivo non è necessariamente vero per la media.

Tuttavia, il CLT si applica anche alla varianza *; è solo che non si può sostenere che il CLT si applica al ricampionamento bootstrap semplicemente prendendo molti campioni. Se la dimensione del campione originale è sufficientemente grande, ciò può (nelle giuste condizioni) tendere a rendere la distribuzione del ricampionamento dei mezzi (e dei momenti più alti, se esistono) relativamente vicino a una distribuzione normale (rispetto alla sua distribuzione in campioni più piccoli, a meno).

Sn2=1nΣio=1n(Xio-X¯)2yio=(Xio-X¯)2Sn2=y¯ySn2Sn-12Sn2Sn2Sn-12

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.