Calcolo della dimensione del campione richiesta, precisione della varianza stimata?


17

sfondo

Ho una variabile con una distribuzione sconosciuta.

Ho 500 campioni, ma vorrei dimostrare la precisione con cui posso calcolare la varianza, ad esempio per sostenere che una dimensione del campione di 500 è sufficiente. Sono anche interessato a conoscere la dimensione minima del campione che sarebbe richiesta per stimare la varianza con una precisione di .X%

Domande

Come posso calcolare

  1. la precisione della mia stima della varianza data una dimensione del campione di ? di ?n=500n=N
  2. Come posso calcolare il numero minimo di campioni richiesti per stimare la varianza con una precisione di ?X

Esempio

Figura 1 stima della densità del parametro sulla base dei 500 campioni.

inserisci qui la descrizione dell'immagine

Figura 2 Ecco un diagramma della dimensione del campione sull'asse x rispetto alle stime della varianza sull'asse y che ho calcolato utilizzando i sottocampioni del campione di 500. L'idea è che le stime convergeranno alla varianza reale all'aumentare di n .

Tuttavia, le stime non sono valide in quanto i campioni utilizzati per stimare la varianza per non sono indipendenti l'uno dall'altro o dei campioni utilizzati per calcolare la varianza inn [ 20 , 40 , 80 ]n[10,125,250,500]n[20,40,80]

inserisci qui la descrizione dell'immagine


Basta essere consapevoli del fatto che se un componente della distribuzione sconosciuta è una distribuzione di Cauchy, la varianza non è definita.
Mike Anderson,

@ Mike O davvero un numero infinito di altre distribuzioni.
Glen_b -Restate Monica

Risposte:


10

Per iid variabili casuali , lo stimatore imparziale per la varianza s 2 (quella con denominatore n - 1 ) ha varianza:X1,,Xns2n1

Var(s2)=σ4(2n1+κn)

dove è l'eccesso di curtosi della distribuzione (riferimento: Wikipedia ). Quindi ora devi anche stimare la curtosi della tua distribuzione. Puoi usare una quantità a volte descritta come γ 2 (anche da Wikipedia ):κγ2

γ2=μ4σ43

Suppongo che se usi come stima per σ e γ 2 come stima per κ , otterrai una stima ragionevole per V a r ( s 2 ) , anche se non vedo la garanzia che sia imparziale. Vedi se corrisponde ragionevolmente alla varianza tra i sottoinsiemi dei tuoi 500 punti dati e se non ti preoccupa più :)sσγ2κVar(s2)


hai un riferimento da manuale per lo stimatore imparziale della varianza? Non so dove andare da Wikipedia per più contesto.
Abe,

Non ho il mio testo standard Rice con me qui, quindi non posso controllare il numero di pagina per te, ma sono sicuro che sia lì. Wikipedia suggerisce che dovrebbe essere menzionato anche in: Montgomery, DC e Runger, GC: Statistiche applicate e probabilità per gli ingegneri , pagina 201. John Wiley & Sons New York, 1994.
Erik P.

grazie per il vostro aiuto in questo. Questa risposta è stata molto utile ed è stata istruttiva per quantificare l'incertezza della varianza: ho applicato l'equazione circa 10 volte nell'ultimo giorno. calcolare è facile con la libreria: kappamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Abe

qualche possibilità hai trovato il numero di pagina dal testo Rice? Non riesco a trovarlo a Casella e Berger. Un riferimento primario sarebbe ancora meglio se lo sapessi. La pagina di Wikipedia è senza riferimenti.
Abe

Hmmm ... sembra che anche Rice non abbia la formula. Lo terrò d'occhio, ma a questo punto non ho alcun riferimento.
Erik P.

15

Imparare una varianza è difficile.

In molti casi è necessario un numero (forse sorprendentemente) di campioni per stimare bene una varianza. Di seguito, mostrerò lo sviluppo del caso "canonico" di un campione normale iid.

Supponiamo che , i = 1 , , n siano variabili casuali indipendenti N ( μ , σ 2 ) . Cerchiamo un intervallo di confidenza del 100 ( 1 - α ) % per la varianza in modo tale che la larghezza dell'intervallo sia ρ s 2 , ovvero la larghezza sia del 100 ρ % della stima puntuale. Ad esempio, se ρ = 1 / 2 , allora la larghezza del C'è metà del valore della stima puntuale, ad esempio, seYii=1,,nN(μ,σ2)100(1α)%ρs2100ρ%ρ=1/2 , quindi l'IC sarebbe qualcosa di simile ( 8 ,s2=10 , con una larghezza di 5. Notare anche l'asimmetria attorno alla stima puntuale. ( s 2 è lo stimatore imparziale per la varianza.)(8,13)s2

"L '" (piuttosto, "a") intervallo di confidenza per è ( n - 1 ) s 2s2 dove χ 2

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
è ilquantileβdella distribuzione chi-quadrato conn-1gradi di libertà. (Ciò deriva dal fatto che(n-1)s2/σ2è una quantità fondamentale in un ambiente gaussiano.)χ(n1)2ββn1(n1)s2/σ2

Vogliamo ridurre al minimo la larghezza in modo che quindi siamo lasciati a risolvere per n tale che ( n - 1 ) ( 1

L(n)=(n1)s2χ(n1)2(α/2)(n1)s2χ(n1)2(1α/2)<ρs2,
n
(n1)(1χ(n1)2(α/2)1χ(n1)2(1α/2))<ρ.

Nel caso di un intervallo di confidenza del 99%, otteniamo per ρ = 1 e n = 5321 per ρ = 0,1 . Quest'ultimo caso produce un intervallo che è ( ancora! ) Del 10% grande quanto la stima puntuale della varianza.n=65ρ=1n=5321ρ=0.1

Se il livello di confidenza scelto è inferiore al 99%, verrà ottenuto lo stesso intervallo di larghezza per un valore inferiore di . Ma n potrebbe ancora essere più grande di quanto avresti immaginato.nn

Un grafico della dimensione del campione rispetto alla larghezza proporzionale ρ mostra qualcosa che appare asintoticamente lineare su una scala log-log; in altre parole, una relazione simile al potere-legge. Possiamo stimare il potere di questa relazione potere-legge (grossolanamente) comenρ

α^log0.1log1log5321log65=log10log5231650.525,

che purtroppo è decisamente lento!


Questo è una specie di caso "canonico" per darti un'idea di come procedere con il calcolo. Sulla base delle tue trame, i tuoi dati non sembrano particolarmente normali; in particolare, c'è quella che sembra essere una notevole asimmetria.

Ma questo dovrebbe darti un'idea di cosa aspettarsi. Nota che per rispondere alla tua seconda domanda sopra, è necessario prima fissare un livello di confidenza, che ho impostato al 99% nello sviluppo sopra a scopo dimostrativo.


questa è una bella risposta alla mia domanda. Tuttavia, anche se seguo il calcolo effettuato per , non mi è esattamente chiaro se le unità per r h o sono in percentuale nella soluzione n = 65 per ρ < 1 ; significa " ρ è inferiore a 1 × s 2 " o " ρ inferiore all'1 % di s 2 ?n|ρrhon=65ρ<1ρ1×s2ρ1%s2
Abe

@Abe, aggiornato e si spera chiarito nel processo. C'era un errore di battitura particolarmente brutto nella versione precedente. Mi dispiace per quello.
cardinale

una risposta molto bella, ma ho scelto quella di @Erik perché è più applicabile al mio problema (dato che il mio parametro non è normalmente distribuito).
Abe

@Abe: non è un problema. Ecco a cosa serve il segno di spunta. La mia risposta era (è) intesa come illustrativa, più che altro. Da quello che posso dire, sembra ancora essere l'unico che affronta entrambe le tue domande e sarà (asintoticamente) corretto anche nello scenario che Erik delinea. (+1 per lui ben oltre un anno fa.) :)
Cardinale

Hai ragione e sono felice di aver rivisitato la tua risposta. Avevo finito per usare il calcolo generale di @Erik, ma ora vedo il valore nella soluzione generale. Inoltre, presentando il CI piuttosto che SD risolverà un problema con il mio pubblico di essere confuso quando vedendo una statistica in forma di , senza capire ciò che la varianza di una varianza è. Quindi s [ l c l , u c l ] dovrebbe renderlo più chiaro e coerente con altri riassunti statistici. E sarà utile mostrare asimmetria. s(ss)s[lcl,ucl]
Abe,

1

Mi concentrerei sulla SD piuttosto che sulla varianza, poiché è su una scala che è più facilmente interpretabile.

Le persone a volte osservano gli intervalli di confidenza per le SD o le varianze, ma l'attenzione è generalmente focalizzata sui mezzi.

I risultati forniti per la distribuzione di possono essere utilizzati per ottenere un intervallo di confidenza per σ 2 (e quindi anche σ ); la maggior parte dei testi matematici / statistici introduttivi fornirebbe i dettagli nella stessa sezione in cui è stata menzionata la distribuzione di σ 2 . Vorrei solo prendere il 2,5% da ogni coda.s2/σ2σ2σσ2


(Questa risposta è arrivata qui dopo che una duplice domanda, incorniciata in modo leggermente diverso, è stata fusa.)
whuber

1

La seguente soluzione fu data da Greenwood e Sandomire in un documento JASA del 1950.

X1,,XnN(μ,σ2)σ

S=i=1n(XiX¯)2n1,
and you want to control the probability that the relative deviation between S and σ is within a fraction 0<u<1. That is,
Pr{S<(1u)σ}=aandPr{S>(1+u)σ}=b,
in which the significance level γ=1ab.

It follows that

Pr{(n1)S2σ2<(n1)(1u)2}=a
and
Pr{(n1)S2σ2>(n1)(1+u)2}=b.
Since the pivotal quantity (n1)S2/σ2 has χn12 distribution, adding the two probabilities, we find

γ=Fχ(n1)2((n1)(1+u)2)Fχ(n1)2((n1)(1u)2),

and the necessary sample size is found solving the former equation in n for given γ and u.

R code.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

Output for u=10% and γ=95%.

Sample size n = 193
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.