Calcolo della dimensione del campione richiesta, precisione della varianza stimata?

17

sfondo

Ho una variabile con una distribuzione sconosciuta.

Ho 500 campioni, ma vorrei dimostrare la precisione con cui posso calcolare la varianza, ad esempio per sostenere che una dimensione del campione di 500 è sufficiente. Sono anche interessato a conoscere la dimensione minima del campione che sarebbe richiesta per stimare la varianza con una precisione di . $X\%$

Domande

Come posso calcolare

la precisione della mia stima della varianza data una dimensione del campione di ? di ? $n=500$ $n=N$
Come posso calcolare il numero minimo di campioni richiesti per stimare la varianza con una precisione di ? $X$

Esempio

Figura 1 stima della densità del parametro sulla base dei 500 campioni.

inserisci qui la descrizione dell'immagine

Figura 2 Ecco un diagramma della dimensione del campione sull'asse x rispetto alle stime della varianza sull'asse y che ho calcolato utilizzando i sottocampioni del campione di 500. L'idea è che le stime convergeranno alla varianza reale all'aumentare di n .

Tuttavia, le stime non sono valide in quanto i campioni utilizzati per stimare la varianza per non sono indipendenti l'uno dall'altro o dei campioni utilizzati per calcolare la varianza in $n \in [10,125,250,500]$ $n\in [20,40,80]$

inserisci qui la descrizione dell'immagine

— Abe
fonte

Basta essere consapevoli del fatto che se un componente della distribuzione sconosciuta è una distribuzione di Cauchy, la varianza non è definita.

— Mike Anderson,

@ Mike O davvero un numero infinito di altre distribuzioni.

— Glen_b -Restate Monica

10

Per iid variabili casuali , lo stimatore imparziale per la varianza (quella con denominatore ) ha varianza: $X_1, \dotsc, X_n$ $s^2$ $n-1$

V a r (s^{2}) = σ^{4} (\frac{2}{n - 1} + \frac{κ}{n})

$\mathrm{Var}(s^2) = \sigma^4 \left(\frac{2}{n-1} + \frac{\kappa}{n}\right)$

dove è l'eccesso di curtosi della distribuzione (riferimento: Wikipedia ). Quindi ora devi anche stimare la curtosi della tua distribuzione. Puoi usare una quantità a volte descritta come (anche da Wikipedia ): $\kappa$ $\gamma_2$

γ_{2} = \frac{μ_{4}}{σ_{4}} - 3

$\gamma_2 = \frac{\mu_4}{\sigma_4} - 3$

Suppongo che se usi come stima per e come stima per , otterrai una stima ragionevole per , anche se non vedo la garanzia che sia imparziale. Vedi se corrisponde ragionevolmente alla varianza tra i sottoinsiemi dei tuoi 500 punti dati e se non ti preoccupa più :) $s$ $\sigma$ $\gamma_2$ $\kappa$ $\mathrm{Var}(s^2)$

— Erik P.
fonte

hai un riferimento da manuale per lo stimatore imparziale della varianza? Non so dove andare da Wikipedia per più contesto.

— Abe,

Non ho il mio testo standard Rice con me qui, quindi non posso controllare il numero di pagina per te, ma sono sicuro che sia lì. Wikipedia suggerisce che dovrebbe essere menzionato anche in: Montgomery, DC e Runger, GC: Statistiche applicate e probabilità per gli ingegneri , pagina 201. John Wiley & Sons New York, 1994.

— Erik P.

grazie per il vostro aiuto in questo. Questa risposta è stata molto utile ed è stata istruttiva per quantificare l'incertezza della varianza: ho applicato l'equazione circa 10 volte nell'ultimo giorno. calcolare

è facile con la libreria:

k a p p a

$kappa$ momentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)

— Abe

qualche possibilità hai trovato il numero di pagina dal testo Rice? Non riesco a trovarlo a Casella e Berger. Un riferimento primario sarebbe ancora meglio se lo sapessi. La pagina di Wikipedia è senza riferimenti.

— Abe

Hmmm ... sembra che anche Rice non abbia la formula. Lo terrò d'occhio, ma a questo punto non ho alcun riferimento.

— Erik P.

15

Imparare una varianza è difficile.

In molti casi è necessario un numero (forse sorprendentemente) di campioni per stimare bene una varianza. Di seguito, mostrerò lo sviluppo del caso "canonico" di un campione normale iid.

Supponiamo che , siano variabili casuali indipendenti . Cerchiamo un intervallo di confidenza del per la varianza in modo tale che la larghezza dell'intervallo sia , ovvero la larghezza sia del della stima puntuale. Ad esempio, se , allora la larghezza del C'è metà del valore della stima puntuale, ad esempio, se $Y_i$ $i=1,\ldots,n$ $\mathcal{N}(\mu, \sigma^2)$ $100(1-\alpha)\%$ $\rho s^2$ $100\rho \%$ $\rho = 1/2$ , quindi l'IC sarebbe qualcosa di simile $s^2 = 10$ , con una larghezza di 5. Notare anche l'asimmetria attorno alla stima puntuale. ( è lo stimatore imparziale per la varianza.) $(8,\,13)$ $s^2$

"L '" (piuttosto, "a") intervallo di confidenza per è $s^2$ dove

\frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (1 - α / 2)}} \leq σ^{2} \leq \frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (α / 2)}},

$\frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} \leq \sigma^2 \leq \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(\alpha/2)}} \>,$

è ilquantile

della distribuzione chi-quadrato con

gradi di libertà. (Ciò deriva dal fatto che

è una quantità fondamentale in un ambiente gaussiano.)

χ_{(n - 1)}^{2 β}

$\chi_{(n-1)}^{2\;\beta}$

β

$\beta$

n - 1

$n-1$

(n - 1) s^{2} / σ^{2}

$(n-1)s^2/\sigma^2$

Vogliamo ridurre al minimo la larghezza in modo che quindi siamo lasciati a risolvere per tale che

L (n) = \frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (α / 2)}} - \frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (1 - α / 2)}} < ρ s^{2},

$L(n) = \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(\alpha/2)}} - \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} < \rho s^2 \>,$

n

$n$

(n - 1) (\frac{1}{χ_{(n - 1)}^{2 (α / 2)}} - \frac{1}{χ_{(n - 1)}^{2 (1 - α / 2)}}) < ρ .

$(n-1) \left(\frac{1}{\chi_{(n-1)}^{2\;(\alpha/2)}} - \frac{1}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} \right) < \rho .$

Nel caso di un intervallo di confidenza del 99%, otteniamo per e per . Quest'ultimo caso produce un intervallo che è ( ancora! ) Del 10% grande quanto la stima puntuale della varianza. $n = 65$ $\rho = 1$ $n = 5321$ $\rho = 0.1$

Se il livello di confidenza scelto è inferiore al 99%, verrà ottenuto lo stesso intervallo di larghezza per un valore inferiore di . Ma potrebbe ancora essere più grande di quanto avresti immaginato. $n$ $n$

Un grafico della dimensione del campione rispetto alla larghezza proporzionale mostra qualcosa che appare asintoticamente lineare su una scala log-log; in altre parole, una relazione simile al potere-legge. Possiamo stimare il potere di questa relazione potere-legge (grossolanamente) come $n$ $\rho$

\hat{α} \approx \frac{\log 0.1 - \log 1}{\log 5321 - \log 65} = \frac{- \log 10}{\log \frac{5231}{65}} \approx - 0.525,

$\hat{\alpha} \approx \frac{\log 0.1 - \log 1}{\log 5321 - \log 65} = \frac{-\log 10}{\log \frac{5231}{65}} \approx -0.525 ,$

che purtroppo è decisamente lento!

Questo è una specie di caso "canonico" per darti un'idea di come procedere con il calcolo. Sulla base delle tue trame, i tuoi dati non sembrano particolarmente normali; in particolare, c'è quella che sembra essere una notevole asimmetria.

Ma questo dovrebbe darti un'idea di cosa aspettarsi. Nota che per rispondere alla tua seconda domanda sopra, è necessario prima fissare un livello di confidenza, che ho impostato al 99% nello sviluppo sopra a scopo dimostrativo.

— cardinale
fonte

questa è una bella risposta alla mia domanda. Tuttavia, anche se seguo il calcolo effettuato per

, non mi è esattamente chiaro se le unità per

sono in percentuale nella soluzione

per

; significa "

è inferiore a

" o "

inferiore

di

?

n | ρ

$n|\rho$

r h o

$rho$

n = 65

$n=65$

ρ < 1

$\rho<1$

ρ

$\rho$

1 \times s^{2}

$1\times s^2$

ρ

$\rho$

1 %

$1\%$

s^{2}

$s^2$

— Abe

@Abe, aggiornato e si spera chiarito nel processo. C'era un errore di battitura particolarmente brutto nella versione precedente. Mi dispiace per quello.

— cardinale

una risposta molto bella, ma ho scelto quella di @Erik perché è più applicabile al mio problema (dato che il mio parametro non è normalmente distribuito).

— Abe

@Abe: non è un problema. Ecco a cosa serve il segno di spunta. La mia risposta era (è) intesa come illustrativa, più che altro. Da quello che posso dire, sembra ancora essere l'unico che affronta entrambe le tue domande e sarà (asintoticamente) corretto anche nello scenario che Erik delinea. (+1 per lui ben oltre un anno fa.) :)

— Cardinale

Hai ragione e sono felice di aver rivisitato la tua risposta. Avevo finito per usare il calcolo generale di @Erik, ma ora vedo il valore nella soluzione generale. Inoltre, presentando il CI piuttosto che SD risolverà un problema con il mio pubblico di essere confuso quando vedendo una statistica in forma di

, senza capire ciò che la varianza di una varianza è. Quindi

dovrebbe renderlo più chiaro e coerente con altri riassunti statistici. E sarà utile mostrare asimmetria.

s (s_{s})

$s(s_{s})$

s [l c l, u c l]

$s[lcl,ucl]$

— Abe,

1

Mi concentrerei sulla SD piuttosto che sulla varianza, poiché è su una scala che è più facilmente interpretabile.

Le persone a volte osservano gli intervalli di confidenza per le SD o le varianze, ma l'attenzione è generalmente focalizzata sui mezzi.

I risultati forniti per la distribuzione di possono essere utilizzati per ottenere un intervallo di confidenza per (e quindi anche ); la maggior parte dei testi matematici / statistici introduttivi fornirebbe i dettagli nella stessa sezione in cui è stata menzionata la distribuzione di . Vorrei solo prendere il 2,5% da ogni coda. $s^2/\sigma^2$ $\sigma^2$ $\sigma$ $\sigma^2$

— Karl
fonte

(Questa risposta è arrivata qui dopo che una duplice domanda, incorniciata in modo leggermente diverso, è stata fusa.)

— whuber

1

La seguente soluzione fu data da Greenwood e Sandomire in un documento JASA del 1950.

$X_1,\dots,X_n$ $\mathrm{N}(\mu,\sigma^2)$ $\sigma$

S = \sqrt{\sum_{i = 1}^{n} \frac{(X_{i} - \bar{X})^{2}}{n - 1}},

$S=\sqrt{\sum_{i=1}^n\frac{(X_i-\bar{X})^2}{n-1}},$ and you want to control the probability that the relative deviation between

S

$S$ and

σ

$\sigma$ is within a fraction

0 < u < 1

$0<u<1$ . That is,

Pr {S < (1 - u) \cdot σ} = a and Pr {S > (1 + u) \cdot σ} = b,

$\Pr\{S<(1-u)\cdot\sigma\}=a \quad\text{and}\quad \Pr\{S>(1+u)\cdot\sigma\}=b,$ in which the significance level

γ = 1 - a - b

$\gamma=1-a-b$ .

It follows that

Pr {\frac{(n - 1) S^{2}}{σ^{2}} < (n - 1) (1 - u)^{2}} = a

$\Pr\!\left\{ \frac{(n-1)S^2}{\sigma^2} < (n-1)(1-u)^2\right\} = a$ and

Pr {\frac{(n - 1) S^{2}}{σ^{2}} > (n - 1) (1 + u)^{2}} = b .

$\Pr\!\left\{ \frac{(n-1)S^2}{\sigma^2} > (n-1)(1+u)^2\right\} = b.$ Since the pivotal quantity

(n - 1) S^{2} / σ^{2}

$(n-1)S^2/\sigma^2$ has

χ_{n - 1}^{2}

$\chi^2_{n-1}$ distribution, adding the two probabilities, we find

γ = F_{χ_{(n - 1)}^{2}} ((n - 1) (1 + u)^{2}) - F_{χ_{(n - 1)}^{2}} ((n - 1) (1 - u)^{2}),

$\gamma = F_{\chi^2_{(n-1)}}((n-1)(1+u)^2) - F_{\chi^2_{(n-1)}}((n-1)(1-u)^2),$

and the necessary sample size is found solving the former equation in $n$ for given $\gamma$ and $u$ .

R code.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

Output for $u=10\%$ and $\gamma=95\%$ .

Sample size n = 193

— Zen
fonte