La deviazione standard può essere calcolata per la media armonica? Comprendo che la deviazione standard può essere calcolata per la media aritmetica, ma se si dispone di una media armonica, come si calcola la deviazione standard o il CV?
La deviazione standard può essere calcolata per la media armonica? Comprendo che la deviazione standard può essere calcolata per la media aritmetica, ma se si dispone di una media armonica, come si calcola la deviazione standard o il CV?
Risposte:
La media armonica delle variabili casuali è definita come
Prendendo momenti di frazioni è un business disordinato, così invece io preferirei lavorare con il . Adesso
Usando il teorema del limite centrale lo capiamo immediatamente
se ovviamente e sono iid, poiché lavoriamo semplicemente con la media aritmetica delle variabili .
Ora usando il metodo delta per la funzione lo otteniamo
Questo risultato è asintotico, ma per semplici applicazioni potrebbe essere sufficiente.
Aggiornamento Come giustamente sottolineato da @whuber, le applicazioni semplici sono un termine improprio. Il teorema del limite centrale vale solo se , il che è un presupposto piuttosto restrittivo.
Aggiornamento 2 Se si dispone di un campione, quindi per calcolare la deviazione standard, inserire semplicemente i momenti del campione nella formula. Quindi per il campione , la stima della media armonica è
i momenti di esempio e sono rispettivamente:
qui sta per reciproco.
Infine, la formula approssimativa per la deviazione standard di è
Ho eseguito alcune simulazioni Monte-Carlo per variabili casuali distribuite uniformemente nell'intervallo . Ecco il codice:
hm <- function(x)1/mean(1/x)
sdhm <- function(x)sqrt((mean(1/x))^(-4)*var(1/x)/length(x))
n<-1000
nn <- c(10,30,50,100,500,1000,5000,10000)
N<-1000
mc<-foreach(n=nn,.combine=rbind) %do% {
rr <- matrix(runif(n*N,min=2,max=3),nrow=N)
c(n,mean(apply(rr,1,sdhm)),sd(apply(rr,1,sdhm)),sd(apply(rr,1,hm)))
}
colnames(mc) <- c("n","DeltaSD","sdDeltaSD","trueSD")
> mc
n DeltaSD sdDeltaSD trueSD
result.1 10 0.089879211 1.528423e-02 0.091677622
result.2 30 0.052870477 4.629262e-03 0.051738941
result.3 50 0.040915607 2.705137e-03 0.040257673
result.4 100 0.029017031 1.407511e-03 0.028284458
result.5 500 0.012959582 2.750145e-04 0.013200580
result.6 1000 0.009139193 1.357630e-04 0.009115592
result.7 5000 0.004094048 2.685633e-05 0.004070593
result.8 10000 0.002894254 1.339128e-05 0.002964259
Ho simulato N
campioni di campioni di n
dimensioni. Per ciascun n
campione di dimensioni ho calcolato la stima della stima standard (funzione sdhm
). Quindi confronto la media e la deviazione standard di queste stime con la deviazione standard del campione della media armonica stimata per ciascun campione, che probabilmente dovrebbe essere la vera deviazione standard della media armonica.
Come puoi vedere, i risultati sono abbastanza buoni anche per campioni di dimensioni moderate. Naturalmente la distribuzione uniforme è molto ben condotta, quindi non sorprende che i risultati siano buoni. Lascerò che qualcun altro indaghi sul comportamento di altre distribuzioni, il codice è molto facile da adattare.
Nota: nella versione precedente di questa risposta c'era un errore nel risultato del metodo delta, varianza errata.
La mia risposta a una domanda correlata sottolinea che la media armonica di un insieme di dati positivi è una stima dei minimi quadrati ponderati (WLS) (con pesi ). È quindi possibile calcolare il suo errore standard utilizzando i metodi WLS. Ciò presenta alcuni vantaggi, tra cui semplicità, generalità e interpretabilità, oltre ad essere prodotto automaticamente da qualsiasi software statistico che consenta pesi nel calcolo della regressione. 1 / x i
Il principale svantaggio è che il calcolo non produce intervalli di buona confidenza per le distribuzioni sottostanti fortemente distorte. Questo è probabilmente un problema con qualsiasi metodo di uso generale: la media armonica è sensibile alla presenza anche di un singolo valore minuscolo nel set di dati.
Per illustrare, qui ci sono distribuzioni empiriche di campioni generati indipendentemente di dimensioni da una distribuzione Gamma (5) (che è modestamente inclinata). Le linee blu mostrano la media armonica reale (uguale a ) mentre le linee tratteggiate rosse mostrano le stime dei minimi quadrati ponderati. Le bande grigie verticali attorno alle linee blu sono intervalli di confidenza approssimativi bilaterali del 95% per la media armonica. In questo caso, in tutti i campioni l'IC copre la vera media armonica. Le ripetizioni di questa simulazione (con semi casuali) suggeriscono che la copertura è vicina alla percentuale prevista del 95%, anche per questi piccoli set di dati.
Ecco il R
codice per la simulazione e le figure.
k <- 5 # Gamma parameter
n <- 12 # Sample size
hm <- k-1 # True harmonic mean
set.seed(17)
t.crit <- -qt(0.05/2, n-1)
par(mfrow=c(4, 5))
for(i in 1:20) {
#
# Generate a random sample.
#
x <- rgamma(n, k)
#
# Estimate the harmonic mean.
#
fit <- lm(x ~ 1, weights=1/x)
beta <- coef(summary(fit))[1, ]
message("Harmonic mean estimate is ", signif(beta["Estimate"], 3),
" +/- ", signif(beta["Std. Error"], 3))
#
# Plot the results.
#
covers <- abs(beta["Estimate"] - hm) <= t.crit*beta["Std. Error"]
plot(ecdf(x), main="Empirical CDF", sub=ifelse(covers, "", "***"))
rect(beta["Estimate"] - t.crit*beta["Std. Error"], 0,
beta["Estimate"] + t.crit*beta["Std. Error"], 1.25,
border=NA, col=gray(0.5, alpha=0.10))
abline(v = hm, col="Blue", lwd=2)
abline(v = beta["Estimate"], col="Red", lty=3, lwd=2)
}
Ecco un esempio di Exponential r.v's.
La media armonica per punti dati è definita come
Supponiamo di avere campioni iid di una variabile aleatoria esponenziale, . La somma di variabili esponenziali segue una distribuzione gamma
dove . Lo sappiamo anche noi
La distribuzione di è quindi
La varianza (e la deviazione standard) di questo camper sono ben note, vedi, per esempio, qui .
V'è una certa preoccupazione che CLT di mpiktas richiede una varianza delimitata a . È vero che ha code folli quando ha densità positiva intorno allo zero. Tuttavia, in molte applicazioni che usano la media armonica, . Qui, è limitato da , dandoti tutti i momenti che desideri!1 / X X X ≥ 1 1 / X 1
Quello che suggerirei è di usare la seguente formula come sostituto della deviazione standard:
dove . La cosa bella di questa formula è che è minimizzata quando e ha le stesse unità della deviazione standard (che sono le stesse unità di ). x=N x
Questo è in analogia alla deviazione standard, che è il valore che assume quando viene minimizzato su . Viene minimizzato quando è la media: .xxx=μ=1