Errore standard di calcolo nella stima media ponderata


16

Supponiamo che w1,w2,,wn e x1,x2,...,xn sono ciascuno tratte IID da alcune distribuzioni, con wi indipendente da xi . Il wi sono strettamente positiva. Si osserva tutto il wi , ma non il ; piuttosto osservi . Sono interessato a stimarexiixiwiˉ x = Σ i w i x iE[x]da queste informazioni. Chiaramente lo stimatore è imparziale e può essere calcolato alla luce delle informazioni a portata di mano.

x¯=iwixiiwi

Come potrei calcolare l'errore standard di questo stimatore? Nel sotto-caso in cui accetta solo i valori 0 e 1, ho provato ingenuamente sostanzialmente ignorando la variabilità nella , ma ha scoperto che questo ha funzionato male per campioni di dimensioni inferiori a circa 250. (E questo probabilmente dipende dalla varianza della .) Sembra che forse non ho abbastanza informazioni per calcolare un errore standard "migliore".xi

sex¯(1x¯)iwi2iwi,
wiwi

Risposte:


17

Di recente ho riscontrato lo stesso problema. Quello che ho trovato è il seguente:

A differenza di un semplice campione casuale con pesi uguali, non esiste una definizione ampiamente accettata di errore standard della media ponderata . In questi giorni, sarebbe semplice fare un bootstrap e ottenere la distribuzione empirica della media, e sulla base di quella stima dell'errore standard.

E se si volesse usare una formula per fare questa stima?

Il riferimento principale è questo articolo , di Donald F. Gatz e Luther Smith, in cui 3 stimatori basati su formule vengono confrontati con i risultati bootstrap. La migliore approssimazione al risultato bootstrap viene da Cochran (1977):

(SEMw)2=n(n1)(Pi)2[(PiXiP¯X¯w)22X¯w(PiP¯)(PiXiP¯X¯w)+X¯w2(PiP¯)2]

Il seguente è il codice R corrispondente fornita da questo thread R listserve .

weighted.var.se <- function(x, w, na.rm=FALSE)
#  Computes the variance of a weighted mean following Cochran 1977 definition
{
  if (na.rm) { w <- w[i <- !is.na(x)]; x <- x[i] }
  n = length(w)
  xWbar = weighted.mean(x,w,na.rm=na.rm)
  wbar = mean(w)
  out = n/((n-1)*sum(w)^2)*(sum((w*x-wbar*xWbar)^2)-2*xWbar*sum((w-wbar)*(w*x-wbar*xWbar))+xWbar^2*sum((w-wbar)^2))
  return(out)
}

Spero che sia di aiuto!


Questo è piuttosto bello, ma per il mio problema non osservo nemmeno la , piuttosto osservo la somma i P i X i . La mia domanda è molto strana perché comporta una certa asimmetria informativa (una terza parte sta segnalando la somma e sta forse cercando di nascondere alcune informazioni). PiXiiPiXi
Shabbychef,

Accidenti hai ragione, scusa se non ho compreso appieno la domanda che hai posto. Supponiamo di bollire il problema verso il basso per il caso più semplice in cui tutti i sono Bernoulli RV. Quindi stai essenzialmente osservando la somma di un sottoinsieme casuale di n camper. Suppongo che qui non ci siano molte informazioni da stimare. Quindi cosa hai fatto per il tuo problema originale? win
Ming K,

@ Ming-ChihKao questa formula di cochran è interessante ma se costruisci un intervallo di confidenza fuori da questo quando i dati non sono normali non c'è un'interpretazione coerente corretta? Come gestiresti gli intervalli di confidenza media ponderati non normali? Quantili ponderati?
user3022875

Penso che ci sia un errore con la funzione. Se si sostituisce w=rep(1, length(x)), allora weighted.var.se(rnorm(50), rep(1, 50))è circa 0.014. Penso che manchi la formula a sum(w^2)nel numeratore, da quando P=1la varianza è 1/(n*(n-1)) * sum((x-xbar)^2). Non riesco a controllare l'articolo citato in quanto è dietro un paywall, ma penso che la correzione. Stranamente, la (diversa) soluzione di Wikipedia diventa degenerata quando tutti i pesi sono uguali: en.wikipedia.org/wiki/… .
Max Candocia,

Questi potrebbero funzionare meglio in generale: analyticalgroup.com/download/WEIGHTED_MEAN.pdf
Max Candocia,

5

La varianza della stima dato il è Σ w 2 i V a r ( X )wi Perché la vostra stima è imparziale per qualsiasiwi, la varianza della sua media condizionale è pari a zero. Quindi, la varianza della tua stima è Var(X)E( w 2 i

wi2Var(X)(wi)2=Var(X)wi2(wi)2.
wi Con tutti i dati osservati, questo sarebbe facile da stimare empiricamente. Ma con solo una misura della posizionedell'Xhoosservato, e non la loro diffusione, non vedo come sarà possibile ottenere una stima diVar(X), senza fare ipotesi piuttosto gravi.
Var(X)E(wi2(wi)2)
XiVar(X)

xixx¯(1x¯)
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.