La media minimizza l' errore al quadrato (o la norma L2, vedi qui o qui ), quindi la scelta naturale della varianza per misurare la distanza dalla media è usare l'errore al quadrato (vedi qui perché lo quadriamo). D'altra parte, la mediana minimizza l'errore assoluto (norma L1), cioè è un valore che si trova nel "mezzo" dei tuoi dati, quindi la distanza assoluta dalla mediana (la cosiddetta deviazione assoluta mediana o MAD) sembra essere un migliore misura del grado di variabilità attorno alla mediana. Puoi leggere di più su queste relazioni in questo thread .
Detto in breve, la varianza differisce dalla MAD su come definiscono il punto centrale dei tuoi dati e questo influenza il modo in cui misuriamo la variazione dei punti di riferimento attorno ad essi. La quadratura dei valori fa sì che i valori anomali abbiano una maggiore influenza sul punto centrale (media), mentre nel caso della mediana, tutti i punti hanno lo stesso impatto su di esso, quindi la distanza assoluta sembra più appropriata.
Ciò può essere mostrato anche mediante una semplice simulazione. Se si confrontano i valori distanze quadrate dalla media e dalla mediana, la distanza totale al quadrato è quasi sempre più piccola dalla media che dalla mediana. D'altra parte, la distanza assoluta totale è minore dalla mediana, quindi dalla media. Il codice R per lo svolgimento della simulazione è riportato di seguito.
sqtest <- function(x) sum((x-mean(x))^2) < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))
mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))
mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))
mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))
Nel caso dell'uso della mediana anziché della media nella stima di tale "varianza", ciò porterebbe a stime più elevate rispetto all'utilizzo della media come viene fatto tradizionalmente.
A proposito, le relazioni delle norme L1 e L2 possono essere considerate anche nel contesto bayesiano, come in questo thread .