In un articolo ho trovato la formula per la deviazione standard di una dimensione del campione
dove è l'intervallo medio di sottocampioni (dimensione ) dal campione principale. Come viene calcolato il numero ? Questo è il numero corretto?
In un articolo ho trovato la formula per la deviazione standard di una dimensione del campione
dove è l'intervallo medio di sottocampioni (dimensione ) dal campione principale. Come viene calcolato il numero ? Questo è il numero corretto?
Risposte:
In un campione di valori indipendenti da una distribuzione con pdf , il pdf della distribuzione congiunta degli estremi e è proporzionale a
(La costante di proporzionalità è il reciproco del coefficiente multinomiale . Intuitivamente, questo PDF congiunto esprime la possibilità di trovare il valore più piccolo nell'intervallo , il valore più grande nell'intervallo e i valori centrali tra loro compresi nell'intervallo . Quando è continuo, possiamo sostituire tale intervallo medio con , trascurando così solo una quantità "infinitesimale" di probabilità. Le probabilità associate, al primo ordine nei differenziali, sono[x[1],x[1]+dx[1])[x[n],x[n]+dx[n])n-2F ( x [ 1 ] , x [ n ] ] f ( x [ 1 ] ) d x [ 1 ] , f ( x [ n ] ) d x [ n ] , e rispettivamente, rendendo ora evidente da dove proviene la formula.)
Prendendo l'aspettativa dell'intervallo ottiene per qualsiasi distribuzione normale con deviazione standard e . L'intervallo previsto come multiplo di dipende dalla dimensione del campione : 2.53441 σ σ n = 6 σ n
Questi valori sono stati calcolati integrando numericamente over , con impostato sullo standard CDF normale e diviso per la deviazione standard di (che è solo ).{(x,y)∈R2| x≤y}FF1
Una simile relazione moltiplicativa tra l'intervallo atteso e la deviazione standard sarà valida per qualsiasi famiglia di distribuzioni a scala di ubicazione, poiché è una proprietà della forma della sola distribuzione. Ad esempio, ecco un grafico comparabile per distribuzioni uniformi:
e distribuzioni esponenziali:
I valori nei due grafici precedenti sono stati ottenuti mediante un'integrazione esatta, non numerica, che è possibile a causa delle forme algebriche relativamente semplici di e in ciascun caso. Per le distribuzioni uniformi sono uguali e per le distribuzioni esponenziali sono dove è la costante di Eulero e è la funzione "poligamma", la derivata logaritmica della funzione Gamma di Eulero.F n - 1 γ+ψ(n)=γ+ Γ ′ ( n )
Sebbene differiscano (poiché queste distribuzioni mostrano una vasta gamma di forme), le tre concordano approssimativamente intorno a , dimostrando che il moltiplicatore non dipende fortemente dalla forma e quindi può servire da omnibus, solida valutazione della deviazione standard quando sono noti intervalli di piccoli sottocampioni. (In effetti, la distribuzione Student dalla coda molto pesante con tre gradi di libertà ha ancora un moltiplicatore intorno a per , non lontano da .)
Tale approssimazione è molto vicina alla vera deviazione standard del campione. Ho scritto un veloce script R per illustrarlo:
x = sample(1:10000,6000,replace=TRUE)
B = 100000
R = rep(NA,B)
for(i in 1:B){
samp = sample(x,6)
R[i] = max(samp)-min(samp)
}
mean(R)/2.534
sd(x)
che produce:
> mean(R)/2.534
[1] 2819.238
>
> sd(x)
[1] 2880.924
Ora non sono sicuro (ancora) del perché questo funziona, ma almeno sembra (al valore nominale) che l'approssimazione sia decente.
Modifica: vedi l'eccezionale commento di @ Whuber (sopra) sul perché funziona
mean(R)/2.474
sd(x)