La deviazione standard può essere calcolata per la media armonica?


12

La deviazione standard può essere calcolata per la media armonica? Comprendo che la deviazione standard può essere calcolata per la media aritmetica, ma se si dispone di una media armonica, come si calcola la deviazione standard o il CV?

Risposte:


13

La media armonica delle variabili casuali è definita comeHX1,...,Xn

H=11ni=1n1Xi

Prendendo momenti di frazioni è un business disordinato, così invece io preferirei lavorare con il . Adesso1/H

1H=1ni=1n1Xi
.

Usando il teorema del limite centrale lo capiamo immediatamente

n(H1EX11)N(0,VarX11)

se ovviamente e sono iid, poiché lavoriamo semplicemente con la media aritmetica delle variabili .VarX11<XiYi=Xi1

Ora usando il metodo delta per la funzione lo otteniamog(x)=x1

n(H(EX11)1)N(0,VarX11(EX11)4)

Questo risultato è asintotico, ma per semplici applicazioni potrebbe essere sufficiente.

Aggiornamento Come giustamente sottolineato da @whuber, le applicazioni semplici sono un termine improprio. Il teorema del limite centrale vale solo se , il che è un presupposto piuttosto restrittivo.VarX11

Aggiornamento 2 Se si dispone di un campione, quindi per calcolare la deviazione standard, inserire semplicemente i momenti del campione nella formula. Quindi per il campione , la stima della media armonica èX1,...,Xn

H^=11ni=1n1Xi

i momenti di esempio e sono rispettivamente:EX11Var(X11)

μ^R=1ni=1n1Xiσ^R2=1ni=1n(1XiμR)2

qui sta per reciproco.R

Infine, la formula approssimativa per la deviazione standard di èH^

sd(H^)=σ^R2nμ^R4

Ho eseguito alcune simulazioni Monte-Carlo per variabili casuali distribuite uniformemente nell'intervallo . Ecco il codice:[2,3]

hm <- function(x)1/mean(1/x)
sdhm <- function(x)sqrt((mean(1/x))^(-4)*var(1/x)/length(x))

n<-1000

nn <- c(10,30,50,100,500,1000,5000,10000)

N<-1000

mc<-foreach(n=nn,.combine=rbind) %do% {

    rr <- matrix(runif(n*N,min=2,max=3),nrow=N)

    c(n,mean(apply(rr,1,sdhm)),sd(apply(rr,1,sdhm)),sd(apply(rr,1,hm)))

}
colnames(mc) <- c("n","DeltaSD","sdDeltaSD","trueSD")

> mc
             n     DeltaSD    sdDeltaSD      trueSD
result.1    10 0.089879211 1.528423e-02 0.091677622
result.2    30 0.052870477 4.629262e-03 0.051738941
result.3    50 0.040915607 2.705137e-03 0.040257673
result.4   100 0.029017031 1.407511e-03 0.028284458
result.5   500 0.012959582 2.750145e-04 0.013200580
result.6  1000 0.009139193 1.357630e-04 0.009115592
result.7  5000 0.004094048 2.685633e-05 0.004070593
result.8 10000 0.002894254 1.339128e-05 0.002964259

Ho simulato Ncampioni di campioni di ndimensioni. Per ciascun ncampione di dimensioni ho calcolato la stima della stima standard (funzione sdhm). Quindi confronto la media e la deviazione standard di queste stime con la deviazione standard del campione della media armonica stimata per ciascun campione, che probabilmente dovrebbe essere la vera deviazione standard della media armonica.

Come puoi vedere, i risultati sono abbastanza buoni anche per campioni di dimensioni moderate. Naturalmente la distribuzione uniforme è molto ben condotta, quindi non sorprende che i risultati siano buoni. Lascerò che qualcun altro indaghi sul comportamento di altre distribuzioni, il codice è molto facile da adattare.

Nota: nella versione precedente di questa risposta c'era un errore nel risultato del metodo delta, varianza errata.


2
@mpiktas Questo è un buon inizio e fornisce alcune indicazioni quando il CV è basso. Ma anche in situazioni pratiche e semplici non è chiaro che si applichi il CLT. Mi aspetto che i reciproci di molte variabili non abbiano secondi o addirittura primi momenti finiti quando c'è una probabilità apprezzabile che i loro valori possano essere vicini allo zero. Mi aspetterei anche che il metodo delta non si applichi a causa dei derivati ​​potenzialmente grandi del reciproco vicino allo zero. Pertanto, potrebbe aiutare a caratterizzare più precisamente le "semplici applicazioni" in cui il metodo potrebbe funzionare. A proposito, che cos'è "D"?
whuber

@whuber, D sta per varianza, . Per semplici applicazioni intendevo quelle per le quali esistono varianza e media del reciproco. Come dici per le variabili casuali con una probabilità apprezzabile che i loro valori possano essere vicini a zero, il reciproco potrebbe non avere nemmeno la media. Ma poi la risposta alla domanda originale è no. Ho ipotizzato che l'OP chiedesse se fosse possibile calcolare la deviazione standard quando esiste. Chiaramente non lo fa per molte variabili casuali. DX=E(XEX)2
mpiktas,

@whuber, BTW per curiosità è una notazione abbastanza standard per me, ma si potrebbe dire che vengo dalla scuola di probabilità russa. Non è così comune nel "West capitalistico"? :)DX
mpiktas,

@mpiktas Non ho mai visto questa notazione per la varianza. La mia prima reazione è stata che è un operatore differenziale! Le notazioni standard sono mnemoniche, come . DVar[X]
whuber

1
L'articolo "Inverted Distributions" di EL Lehmann e Juliet Popper Shaffer è una lettura interessante per quanto riguarda le distribuzioni di variabili casuali invertite.
emakalic,

2

La mia risposta a una domanda correlata sottolinea che la media armonica di un insieme di dati positivi è una stima dei minimi quadrati ponderati (WLS) (con pesi ). È quindi possibile calcolare il suo errore standard utilizzando i metodi WLS. Ciò presenta alcuni vantaggi, tra cui semplicità, generalità e interpretabilità, oltre ad essere prodotto automaticamente da qualsiasi software statistico che consenta pesi nel calcolo della regressione. 1 / x ixi1/xi

Il principale svantaggio è che il calcolo non produce intervalli di buona confidenza per le distribuzioni sottostanti fortemente distorte. Questo è probabilmente un problema con qualsiasi metodo di uso generale: la media armonica è sensibile alla presenza anche di un singolo valore minuscolo nel set di dati.

Per illustrare, qui ci sono distribuzioni empiriche di campioni generati indipendentemente di dimensioni da una distribuzione Gamma (5) (che è modestamente inclinata). Le linee blu mostrano la media armonica reale (uguale a ) mentre le linee tratteggiate rosse mostrano le stime dei minimi quadrati ponderati. Le bande grigie verticali attorno alle linee blu sono intervalli di confidenza approssimativi bilaterali del 95% per la media armonica. In questo caso, in tutti i campioni l'IC copre la vera media armonica. Le ripetizioni di questa simulazione (con semi casuali) suggeriscono che la copertura è vicina alla percentuale prevista del 95%, anche per questi piccoli set di dati.20n=12420

figure

Ecco il Rcodice per la simulazione e le figure.

k <- 5             # Gamma parameter
n <- 12            # Sample size
hm <- k-1          # True harmonic mean
set.seed(17)

t.crit <- -qt(0.05/2, n-1)
par(mfrow=c(4, 5))
for(i in 1:20) {
  #
  # Generate a random sample.
  #
  x <- rgamma(n, k)
  #
  # Estimate the harmonic mean.
  #
  fit <- lm(x ~ 1, weights=1/x)
  beta <- coef(summary(fit))[1, ]
  message("Harmonic mean estimate is ", signif(beta["Estimate"], 3), 
          " +/- ", signif(beta["Std. Error"], 3))
  #
  # Plot the results.
  #
  covers <- abs(beta["Estimate"] - hm) <= t.crit*beta["Std. Error"]
  plot(ecdf(x), main="Empirical CDF", sub=ifelse(covers, "", "***"))
  rect(beta["Estimate"] - t.crit*beta["Std. Error"], 0, 
       beta["Estimate"] + t.crit*beta["Std. Error"], 1.25, 
       border=NA, col=gray(0.5, alpha=0.10))
  abline(v = hm, col="Blue", lwd=2)
  abline(v = beta["Estimate"], col="Red", lty=3, lwd=2)
}

1

Ecco un esempio di Exponential r.v's.

La media armonica per punti dati è definita comen

S=11ni=1nXi

Supponiamo di avere campioni iid di una variabile aleatoria esponenziale, . La somma di variabili esponenziali segue una distribuzione gammanXiExp(λ)n

i=1nXiGamma(n,θ)

dove . Lo sappiamo anche noiθ=1λ

1nGamma(n,θ)Gamma(n,θn)

La distribuzione di è quindiS

SInvGamma(n,nθ)

La varianza (e la deviazione standard) di questo camper sono ben note, vedi, per esempio, qui .


3
la tua definizione di media armonica non è d'accordo con wikipedia
mpiktas il

L'uso degli esponenziali è un buon approccio per comprendere il problema.
whuber

1
Tutta la speranza non è completamente persa. Se Xi ~ Exp (\ lambda) allora Xi ~ Gamma (1, \ lambda) quindi 1 / Xi ~ InvGamma (1, 1 / \ lambda). Quindi utilizzare "V. Witkovsky (2001) Calcolo della distribuzione di una combinazione lineare di variabili gamma invertite, Kybernetika 37 (1), 79-90" e vedere quanto si arriva!
tristan,

0

V'è una certa preoccupazione che CLT di mpiktas richiede una varianza delimitata a . È vero che ha code folli quando ha densità positiva intorno allo zero. Tuttavia, in molte applicazioni che usano la media armonica, . Qui, è limitato da , dandoti tutti i momenti che desideri!1 / X X X 1 1 / X 11/X1/XXX11/X1


0

Quello che suggerirei è di usare la seguente formula come sostituto della deviazione standard:

σ=Ni=1N(1x^1xi)2,

dove . La cosa bella di questa formula è che è minimizzata quando e ha le stesse unità della deviazione standard (che sono le stesse unità di ). x=Nx^=N1xi xx^=N1xix

Questo è in analogia alla deviazione standard, che è il valore che assume quando viene minimizzato su . Viene minimizzato quando è la media: .xxx=μ=11N(x^xi)2x^x^x^=μ=1Nxi

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.