Correzione di polarizzazione nella varianza ponderata


22

Per la varianza non ponderata esiste la varianza del campione corretta per il bias, quando la media è stata stimata dagli stessi dati:

Var(X):=1ni(xiμ)2
Var(X):=1n1i(xiE[X])2

Sto esaminando la media ponderata e la varianza e mi chiedo quale sia la correzione del bias appropriata per la varianza ponderata. Utilizzando:

mean(X): =1ΣioωioΣioωioXio

La varianza "ingenua" e non corretta che sto usando è questa:

Var(X): =1ΣioωioΣioωio(Xio-significare(X))2

Quindi mi chiedo se sia il modo corretto di correggere la distorsione

A)

Var(X): =1Σioωio-1Σioωio(Xio-significare(X))2

oppure B)

Var(X): =nn-11ΣioωioΣioωio(Xio-significare(X))2

oppure C)

Var(X): =Σioωio(Σioωio)2-Σioωio2Σioωio(Xio-significare(X))2

A) non ha senso per me quando i pesi sono piccoli. Il valore di normalizzazione potrebbe essere 0 o addirittura negativo. Ma che dire di B) ( è il numero di osservazioni): è questo l'approccio corretto? Hai qualche riferimento che mostra questo? Credo che "L'aggiornamento delle stime di media e varianza: un metodo migliorato", DHD West, 1979 lo usa. Il terzo, C) è la mia interpretazione della risposta a questa domanda: /mathpro/22203/unbiased-estimate-of-the-variance-of-an-unnormalised-weighted-meann

Per C) mi sono appena reso conto che il denominatore assomiglia molto a Var(Ω) . C'è qualche connessione generale qui? Penso che non si allinea completamente; e ovviamente c'è la connessione che stiamo cercando di calcolare la varianza ...

Tutti e tre sembrano "sopravvivere" al controllo di dell'impostazione di . Quindi quale dovrei usare, in quali locali? '' Aggiornamento: '' whuber ha suggerito di fare anche il controllo di integrità con e tutti i rimanenti tiny. Questo sembra escludere A e B.ωio=1ω1=ω2=.5ωio=ε


Quando si considerano i casi in cui i due pesi più grandi sono uguali e tutto il resto diventa evanescente, entrambi (A) e (B) cadono dalla contesa (perché non sono d'accordo con i risultati noti per ). (C) sembra essere un'approssimazione; Sospetto che il fattore corretto sia una funzione molto più complicata dei pesi. n=2
whuber

@whuber ThePawn di seguito suggerisce che è C. Hai dubbi più dettagliati?
Anony-Mousse,

1
La soluzione (A) funziona, l'ho implementata in passato e posso confermare dai test empirici che fornisce i risultati corretti. Tuttavia, è necessario utilizzare solo valori interi per i pesi e> 0.
gaborous

Grazie! Questo mi ha aiutato molto a prendere la strada giusta quando i pesi sono per una media mobile esponenziale! Si scopre che il modo ingenuo di calcolare la varianza in realtà lo sovrastima di un fattore costante di 2, oltre alla piccola correzione (1-1 / n) che si presenta in modo analogo al semplice calcolo della media mobile. È un caso speciale particolarmente folle!
saolof

Risposte:


10

Ho passato la matematica e ho finito con la variante C:

dove ¯ V è la stima della varianza non corretta. La formula concorda con il caso non ponderato quando tuttiωisono identici. Nel dettaglio la prova di seguito:

Vun'r(X)=(Σioωio)2(Σioωio)2-Σioωio2V¯
V¯ωio

Impostazione λio=ωioΣioωio

V¯=Σioλio(Xio-ΣjλjXj)2

(Xio-ΣjλjXj)2=Xio2+Σj,KλjλKXjXK-2ΣjλjXioXj

E[XioXj]=Vun'r(X)1io=j+E[X]2E[X]

E[V¯]=Vun'r(X)Σioλio(1+Σjλj2-2λio)
E[V¯]=Var(X)(1jλj2)
λiωi

Questa è la variante C sopra, vero?
Anony-Mousse

Oups, sì, è la variante C.
ThePawn

Ho verificato empiricamente questa soluzione e NON funziona ... L'unica cosa che fa è la soluzione (A) che ho implementato anche in passato da solo, ma funziona solo con pesi che sono numeri interi e> = 0
gaborosa

2
Questa equazione è sbagliata secondo Wikipedia, Matlab, R e altri che stanno implementando questa equazione. Il numeratore qui è quadrato, ma NON dovrebbe, dovrebbe essere proprio come la (C) proposta dall'OP. Vedi en.wikipedia.org/wiki/…
gaborous

1
@rajatkhanduja Non stavo parlando della dimostrazione ma dell'equazione derivata finale (la prima in questa risposta). Ma in effetti è corretto, il numeratore è appena quadrato perché moltiplichiamo per V, quindi il numeratore finisce per non essere quadrato. Comunque, questo stimatore rimane distorto come spiego nella mia risposta di seguito poiché si basa su pesi di tipo "affidabilità".
Gaborous,

7

Sia A che C sono corretti, ma quale userete dipende dal tipo di pesi che utilizzate:

  • A ha bisogno di usare pesi di tipo "ripeti" (numeri interi che contano il numero di occorrenze per ciascuna osservazione) ed è imparziale .
  • C ha bisogno di usare "affidabilità" pesi -tipo (pesi sia normalizzato o sia varianze per ogni osservazione), ed è polarizzato . Non può essere imparziale.

Il motivo per cui C è necessariamente distorto è perché se non si utilizzano pesi di tipo "ripeti", si perde la capacità di contare il numero totale di osservazioni (dimensione del campione) e quindi non è possibile utilizzare un fattore di correzione.

Per maggiori informazioni, consulta l'articolo di Wikipedia che è stato aggiornato di recente: http://it.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.