Relazione tra intervallo e deviazione standard


14

In un articolo ho trovato la formula per la deviazione standard di una dimensione del campione N

σ=R¯2.534

dove R¯ è l'intervallo medio di sottocampioni (dimensione 6 ) dal campione principale. Come viene calcolato il numero 2.534 ? Questo è il numero corretto?


6
Riferimenti per favore. Ancora più importante: 1. Non ci può essere un "numero corretto" qui indipendentemente dal tipo di distribuzione da cui stai attingendo. 2. Queste regole di solito provengono dall'interesse nei metodi di scorciatoia per stimare la DS dalla gamma. Ora abbiamo i computer .... Vuoi farlo e perché? Perché non usare solo i dati?
Nick Cox,

3
@Nick Siamo spiacenti: avevi ragione. Un valore circa 4 funziona per la deviazione standard quando la dimensione del campione è compresa tra 15 e 50 ; 3 funziona per campioni di dimensioni intorno a 10 , ecc. Eliminerò il mio commento precedente in modo da non confondere nessuno a parte me stesso!
whuber

1
@NickCox è una vecchia fonte russa e non ho mai visto la formula prima.
Andy,

3
Dare riferimenti raramente è una cattiva idea. Lascia che i lettori decidano da soli se sono interessanti o accessibili. (Ci sono molte persone qui che sanno leggere il russo, per esempio.)
Nick Cox,

Risposte:


17

In un campione x di n valori indipendenti da una distribuzione F con pdf f , il pdf della distribuzione congiunta degli estremi min(x)=x[1] e max(x)=x[n] è proporzionale a

f(x[1])(F(x[n])F(x[1]))n2f(x[n])dx[1]dx[n]=HF(x[1],x[n])dx[1]dx[n].

(La costante di proporzionalità è il reciproco del coefficiente multinomiale . Intuitivamente, questo PDF congiunto esprime la possibilità di trovare il valore più piccolo nell'intervallo , il valore più grande nell'intervallo e i valori centrali tra loro compresi nell'intervallo . Quando è continuo, possiamo sostituire tale intervallo medio con , trascurando così solo una quantità "infinitesimale" di probabilità. Le probabilità associate, al primo ordine nei differenziali, sono[x[1],x[1]+dx[1])[x[n],x[n]+dx[n])n-2(n1,n2,1)=n(n1)[x[1],x[1]+dx[1])[x[n],x[n]+dx[n])n2F ( x [ 1 ] , x [ n ] ] f ( x [ 1 ] ) d x [ 1 ] , f ( x [ n ] ) d x [ n ] ,[x[1]+dx[1],x[n])F(x[1],x[n]]f(x[1])dx[1], f(x[n])dx[n],e rispettivamente, rendendo ora evidente da dove proviene la formula.)F(x[n])F(x[1]),

Prendendo l'aspettativa dell'intervallo ottiene per qualsiasi distribuzione normale con deviazione standard e . L'intervallo previsto come multiplo di dipende dalla dimensione del campione : 2.53441 σ σ n = 6 σ nx[n]x[1]2.53441 σσn=6σn

Normale

Questi valori sono stati calcolati integrando numericamente over , con impostato sullo standard CDF normale e diviso per la deviazione standard di (che è solo ).{(x,y)R2| xy}FF1(n1,n2,1)(yx)HF(x,y)dxdy{(x,y)R2|xy}FF1

Una simile relazione moltiplicativa tra l'intervallo atteso e la deviazione standard sarà valida per qualsiasi famiglia di distribuzioni a scala di ubicazione, poiché è una proprietà della forma della sola distribuzione. Ad esempio, ecco un grafico comparabile per distribuzioni uniformi:

Uniforme

e distribuzioni esponenziali:

Esponenziale

I valori nei due grafici precedenti sono stati ottenuti mediante un'integrazione esatta, non numerica, che è possibile a causa delle forme algebriche relativamente semplici di e in ciascun caso. Per le distribuzioni uniformi sono uguali e per le distribuzioni esponenziali sono dove è la costante di Eulero e è la funzione "poligamma", la derivata logaritmica della funzione Gamma di Eulero.F n - 1fF γ+ψ(n)=γ+ Γ ( n )n1(n+1)12γ+ψ(n)=γ+Γ(n)Γ(n)γψ

Sebbene differiscano (poiché queste distribuzioni mostrano una vasta gamma di forme), le tre concordano approssimativamente intorno a , dimostrando che il moltiplicatore non dipende fortemente dalla forma e quindi può servire da omnibus, solida valutazione della deviazione standard quando sono noti intervalli di piccoli sottocampioni. (In effetti, la distribuzione Student dalla coda molto pesante con tre gradi di libertà ha ancora un moltiplicatore intorno a per , non lontano da .)n=62.5t2.3n=62.5


6
Esposizione meravigliosa! Potresti essere interessato a sapere che questo sembra essere stato indagato negli anni '20. Vedi Tippet 1925 . Nelle tabelle di Tippet (Tabella X) il valore atteso per l'intervallo dato un campione di dimensione 6 è . Mostra la derivazione della distribuzione completa dell'intervallo per la distribuzione normale. Questo è stato usato da David et.al. (1954) per calcolare i punti di probabilità della distribuzione dell'intervallo per un test di normalità (vedi D'Agostino e Stephens 9.3.3.4.2). 2.53441σ
Avraham,

@Avraham Grazie per i commenti illuminanti. Ciò che mi ha colpito quando ho aggiunto la grafica è che la parte davvero intelligente di questo intero approccio è l'uso di sottocampioni di dimensione sei perché è lì che i moltiplicatori tendono ad essere quasi uguali indipendentemente dalla forma distributiva.
whuber

Grazie! Le tabelle di Tippet in realtà forniscono il moltiplicatore appropriato per tutti i numeri tra 2 e 1000. Fa menzione di problemi di calcolo; naturalmente, questo risale al 1925, ben 20 anni prima dell'ENIAC.
Avraham,

@whuber puoi mostrare come è stato calcolato il numero (2.534)?
Andy,

Ho modificato la risposta per includere spiegazioni dei calcoli.
whuber

4

Tale approssimazione è molto vicina alla vera deviazione standard del campione. Ho scritto un veloce script R per illustrarlo:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

che produce:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

Ora non sono sicuro (ancora) del perché questo funziona, ma almeno sembra (al valore nominale) che l'approssimazione sia decente.

Modifica: vedi l'eccezionale commento di @ Whuber (sopra) sul perché funziona


1
Si stanno disegnando sottocampioni di dimensione da una distribuzione approssimativamente uniforme. Per una distribuzione veramente uniforme il rapporto è . In effetti, se dovessi usare quel fattore nella tua simulazione, otterrai pari a , molto vicino . 6103/72.474mean(R)/2.4742887.6sd(x)
whuber

Verissimo! > mean(R)/2.474 [1] 2887.611
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.