Varianza ponderata, ancora una volta


17

La varianza ponderata senza paragoni era già stata affrontata qui e altrove, ma sembra esserci ancora una sorprendente quantità di confusione. Sembra esserci un consenso sulla formula presentata nel primo link e nell'articolo di Wikipedia . Questa sembra anche la formula usata da R, Mathematica e GSL (ma non MATLAB). Tuttavia, l'articolo di Wikipedia contiene anche la seguente riga che sembra un ottimo controllo di integrità per un'implementazione della varianza ponderata:

Ad esempio, se i valori {2,2,4,5,5,5} sono tratti dalla stessa distribuzione, allora possiamo considerare questo set come un campione non ponderato o possiamo trattarlo come un campione ponderato {2,4, 5} con pesi corrispondenti {2,1,3} e dovremmo ottenere gli stessi risultati.

I miei calcoli danno il valore di 2.1667 per la varianza dei valori originali e 2.9545 per la varianza ponderata. Dovrei davvero aspettarmi che siano uguali? Perché o perché no?


6
questa domanda non riguarda in realtà l'implementazione, ma la teoria alla base
confuso

Risposte:


15

Sì, dovresti aspettarti che entrambi gli esempi (non ponderato vs ponderato) forniscano gli stessi risultati.

Ho implementato i due algoritmi dall'articolo di Wikipedia.

Questo funziona:

Se tutti i Xio sono tratte dalla stessa distribuzione ei pesi interi wio indico frequenza di occorrenza nel campione, allora lo stimatore della varianza popolazione ponderata è dato da:

S2 =1V1-1Σio=1Nwio(Xio-μ*)2,

Tuttavia questo (usando pesi frazionari) non funziona per me:

Xio1/wio

S2 =V1V12-V2Σio=1Nwio(Xio-μ*)2

Sto ancora studiando i motivi per cui la seconda equazione non funziona come previsto.

/ EDIT: trovato il motivo per cui la seconda equazione non ha funzionato come pensavo: puoi usare la seconda equazione solo se hai pesi normalizzati o varianza ("affidabilità") e NON è imparziale, perché se non lo fai usa i pesi "ripeti" (contando il numero di volte in cui un'osservazione è stata osservata e quindi dovrebbe essere ripetuta nelle tue operazioni matematiche), perdi la capacità di contare il numero totale di osservazioni e quindi non puoi usare un fattore di correzione.

Questo spiega la differenza nei risultati usando la varianza ponderata e non ponderata: il tuo calcolo è distorto.

Pertanto, se si desidera avere una varianza ponderata imparziale, utilizzare solo pesi di "ripetizione" e utilizzare la prima equazione che ho pubblicato sopra. Se ciò non è possibile, beh, non puoi evitarlo.

Ho anche aggiornato l'articolo di Wikipedia se vuoi maggiori informazioni: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

E un articolo collegato sulla covarianza ponderata imparziale (che in effetti è la stessa varianza dovuta all'identità di polarizzazione ): equazione corretta per la covarianza ponderata di campione imparziale


Dopo aver letto e riflettuto molto su questo, non ottengo ancora un significato intuitivo o un esempio del termine "pesi di affidabilità". Puoi per favore approfondire un po 'su questo?
Peter,

I pesi di affidabilità @Peter sono pesi normalizzati, ad esempio, limitati tra 0 e 1 o -1 e 1. Rappresentano una frequenza (ad esempio 0,1 significa che questo campione è stato visto il 10% delle volte rispetto a tutti gli altri campioni). Non ho inventato il termine, lo si può trovare nelle pubblicazioni. Per i pesi ripetuti è il contrario, ogni peso rappresenta il numero di occorrenze, la cardinalità (es. 10 se il campione è stato osservato 10 volte).
gaborous

Questo è confuso perché ciò che chiamate pesi ripetuti è spesso chiamato anche pesi di frequenza , ma penso di aver fatto la differenza. Dipende dalla normalizzazione, giusto?
Peter,

No, i pesi di frequenza sono un nome alternativo per i pesi di affidabilità. Per i pesi ripetuti, è il numero di occorrenze, non la frequenza. Con i pesi ripetuti, non c'è affatto normalizzazione, questo è il punto: finché normalizzi i tuoi pesi, perdi la frequenza di base, quindi non puoi annullare completamente i tuoi calcoli. L'unico modo è mantenere il numero totale di occorrenze. Se vuoi davvero usare i pesi di frequenza, penso che se memorizzi in anticipo il numero N totale di occorrenze puoi convertire avanti e indietro per ripetere i pesi moltiplicando i pesi di frequenza per N, allora va bene.
Gaborous,

E se i tuoi pesi sono 1 / varianza, come li chiameresti? Sarebbero quindi "pesi di affidabilità"?
Tom Wenseleers,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.