Utilizzo della mediana per il calcolo della varianza


10

Ho una variabile casuale 1-D che è estremamente distorta. Per normalizzare questa distribuzione, voglio usare la mediana piuttosto che la media. la mia domanda è questa: posso calcolare la varianza della distribuzione usando la mediana nella formula anziché la media?

cioè posso sostituire

Var(X)=[(Ximean(X))2]/n

con

Var(X)=[(Ximedian(X))2]/n

Il mio ragionamento alla base di questo è che, poiché la varianza è una misura della diffusione rispetto alla tendenza centrale di una distribuzione, non dovrebbe essere un problema, ma sto cercando di convalidare questa logica.



1
Centrando la mediana delle variabili e poi dividendola per la MAD (deviazione assoluta mediana), è possibile creare una distribuzione standardizzata mediana.
Mike Hunter,

4
Puoi farlo! Ma penso sia giusto chiamarlo altamente non standard e suggerire che hai bisogno di teoria e / o simulazioni per sostenerlo e non solo il tuo intuito. Sospetto che sarà meno resistente dello stimatore standard. Ad esempio, in un caso comune inclinato a destra, la mediana sarà inferiore alla media, quindi le deviazioni quadrate più grandi (dalla mediana) saranno quindi ancora più grandi! Il punto principale è che se la varianza è molto inaffidabile, potrebbe essere necessario pensare a misurare la diffusione in modo piuttosto diverso, piuttosto che diverse versioni della varianza.
Nick Cox,

1

1
Questo approccio è intrinsecamente incoerente, perché i problemi che vengono affrontati sostituendo la media con la mediana vengono amplificati utilizzando la varianza anziché un solido stimatore della diffusione.
whuber

Risposte:


8

La media minimizza l' errore al quadrato (o la norma L2, vedi qui o qui ), quindi la scelta naturale della varianza per misurare la distanza dalla media è usare l'errore al quadrato (vedi qui perché lo quadriamo). D'altra parte, la mediana minimizza l'errore assoluto (norma L1), cioè è un valore che si trova nel "mezzo" dei tuoi dati, quindi la distanza assoluta dalla mediana (la cosiddetta deviazione assoluta mediana o MAD) sembra essere un migliore misura del grado di variabilità attorno alla mediana. Puoi leggere di più su queste relazioni in questo thread .

Detto in breve, la varianza differisce dalla MAD su come definiscono il punto centrale dei tuoi dati e questo influenza il modo in cui misuriamo la variazione dei punti di riferimento attorno ad essi. La quadratura dei valori fa sì che i valori anomali abbiano una maggiore influenza sul punto centrale (media), mentre nel caso della mediana, tutti i punti hanno lo stesso impatto su di esso, quindi la distanza assoluta sembra più appropriata.

Ciò può essere mostrato anche mediante una semplice simulazione. Se si confrontano i valori distanze quadrate dalla media e dalla mediana, la distanza totale al quadrato è quasi sempre più piccola dalla media che dalla mediana. D'altra parte, la distanza assoluta totale è minore dalla mediana, quindi dalla media. Il codice R per lo svolgimento della simulazione è riportato di seguito.

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

Nel caso dell'uso della mediana anziché della media nella stima di tale "varianza", ciò porterebbe a stime più elevate rispetto all'utilizzo della media come viene fatto tradizionalmente.

A proposito, le relazioni delle norme L1 e L2 possono essere considerate anche nel contesto bayesiano, come in questo thread .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.