Proprietà medie e mediane


18

Qualcuno può spiegarmi chiaramente la logica matematica che collegherebbe due affermazioni (a) e (b) insieme? Cerchiamo di avere un insieme di valori (parte della distribuzione). Adesso,

a) La mediana non dipende da ogni valore [dipende solo da uno o due valori medi]; b) La mediana è il luogo della somma minima delle deviazioni assolute da essa.

E allo stesso modo, e al contrario,

a) la media (aritmetica) dipende da ogni valore; b) Media è il luogo della somma minima delle deviazioni al quadrato da esso.

La mia comprensione è intuitiva finora.


1
Vale la pena rivedere una versione precedente della stessa domanda: stats.stackexchange.com/questions/2547/… E una descrizione di statistiche
affidabili

Quindi quello che stai cercando per la prima coppia è una prova che la mediana, come di solito definita come il valore di rango medio (comunque per un numero dispari di valori, per iniziare con il caso più semplice) è anche il valore che minimizza la somma di deviazioni assolute? Preferibilmente una prova che fornisce anche alcune informazioni intuitive? Non conosco alcuna prova, quindi mi sembra una buona domanda, e mi piacerebbe conoscere anche la risposta.
onestop,

Mi senti correttamente. (a) e (b) sono attualmente aspetti / proprietà separati nella mia mente, per entrambe le statistiche; ma l'intuizione suggerisce che i due aspetti sono legati. Voglio sapere come sono legati, per capire tutto in profondità.
ttnphns,

Risposte:


19

Queste sono due domande: una su come funzionano la media e la mediana per minimizzare la perdita e un'altra sulle sensibilità di queste stime ai dati. Le due domande sono collegate, come vedremo.

Riduzione al minimo delle perdite

È possibile creare un riepilogo (o uno stimatore) del centro di un batch di numeri lasciando che il valore di riepilogo cambi e immaginando che ciascun numero nel batch eserciti una forza di ripristino su quel valore. Quando la forza non allontana mai il valore da un numero, allora probabilmente qualsiasi punto in cui l'equilibrio delle forze è un "centro" del lotto.

Perdita quadratica ( )L2

Ad esempio, se dovessimo attaccare una molla classica (seguendo la Legge di Hooke ) tra il sommario e ciascun numero, la forza sarebbe proporzionale alla distanza di ciascuna molla. Le molle tirerebbero il riassunto in questo modo e in quello, alla fine si sistemerebbero in una posizione unica e stabile di energia minima.

Vorrei attirare l'attenzione su un piccolo gioco di prestigio appena accaduto: l' energia è proporzionale alla somma delle distanze al quadrato . La meccanica newtoniana ci insegna che la forza è il tasso di cambiamento di energia. Raggiungere un equilibrio - minimizzare l'energia - porta a bilanciare le forze. Il tasso netto di variazione nell'energia è zero.

Chiamiamo questo " riepilogo " o "riepilogo perdite quadrate".L2

Perdita assoluta ( )L1

È possibile creare un altro riepilogo supponendo che le dimensioni delle forze di ripristino siano costanti , indipendentemente dalle distanze tra il valore e i dati. Le forze stesse non sono costanti, tuttavia, poiché devono sempre attirare il valore verso ciascun punto dati. Pertanto, quando il valore è inferiore al punto dati, la forza è diretta in modo positivo, ma quando il valore è maggiore del punto dati, la forza è diretta negativamente. Ora l' energia è proporzionale alle distanze tra valore e dati. Generalmente ci sarà un'intera regione in cui l'energia è costante e la forza netta è zero. Qualsiasi valore in questa regione che potremmo chiamare " riepilogo " o "riepilogo delle perdite assolute".L1

Queste analogie fisiche forniscono utili intuizioni sui due riassunti. Ad esempio, cosa succede al riepilogo se spostiamo uno dei punti dati? Nel caso con molle collegate, lo spostamento di un punto dati allunga o rilassa la sua molla. Il risultato è una modifica in vigore nel riepilogo, quindi deve cambiare in risposta. Ma nel caso , il più delle volte una modifica in un punto dati non fa nulla per il riepilogo, perché la forza è localmente costante. L'unico modo in cui la forza può cambiare è che il punto dati si sposti nel riepilogo.L 1L2L1

(In effetti, dovrebbe essere evidente che la forza netta su un valore è data dal numero di punti maggiore di esso - che lo tira verso l'alto - meno il numero di punti inferiore di esso - che lo tira verso il basso. Pertanto, il riepilogo deve essere presente in qualsiasi posizione in cui il numero di valori di dati che lo supera sia esattamente uguale al numero di valori di dati inferiore a esso.)L1

Descrive le perdite

Dato che entrambe le forze e le energie si sommano, in entrambi i casi possiamo scomporre l'energia netta in contributi individuali dai punti dati. Rappresentando graficamente l'energia o la forza in funzione del valore di riepilogo, ciò fornisce un quadro dettagliato di ciò che sta accadendo. Il riassunto sarà un luogo in cui l'energia (o "perdita" nel linguaggio statistico) è più piccola. Equivalentemente, sarà una posizione in cui le forze si bilanciano: il centro dei dati si verifica in cui la variazione netta della perdita è zero.

Questa figura mostra le energie e le forze per un piccolo set di dati di sei valori (contrassegnati da deboli linee verticali in ogni diagramma). Le curve nere tratteggiate sono i totali delle curve colorate che mostrano i contributi dei singoli valori. L'asse x indica i possibili valori del riepilogo.

Figura 1

La media aritmetica è un punto in cui la perdita quadrata è ridotta al minimo: sarà posizionata al vertice (in basso) della parabola nera nella trama in alto a sinistra. È sempre unico. La mediana è un punto in cui la perdita assoluta è minimizzata. Come notato sopra, deve avvenire nel mezzo dei dati. Non è necessariamente unico. Si troverà nella parte inferiore della curva nera rotta in alto a destra. (Il fondo in realtà è costituito da una breve sezione piatta tra e ; qualsiasi valore in questo intervallo è una mediana.)- 0,170.230,17

Analizzare la sensibilità

In precedenza ho descritto cosa può accadere al riepilogo quando si varia un punto dati. È istruttivo tracciare come cambia il riepilogo in risposta alla modifica di un singolo punto dati. (Questi grafici sono essenzialmente le funzioni di influenza empirica . Differiscono dalla normale definizione in quanto mostrano i valori effettivi delle stime piuttosto che la quantità di tali valori vengono modificati.) Il valore del riepilogo è etichettato da "Stima" su y -assicura di ricordarci che questo riepilogo sta valutando la posizione centrale del set di dati. I nuovi valori (modificati) di ciascun punto dati sono mostrati sui loro assi x.

figura 2

Questa figura presenta i risultati della variazione di ciascuno dei valori dei dati nel batch (lo stesso analizzato nella prima figura). C'è un grafico per ogni valore di dati, che viene evidenziato sul grafico con un lungo segno di spunta nero lungo l'asse inferiore. (I valori dei dati rimanenti vengono visualizzati con brevi segni di spunta grigi.) La curva blu traccia il riepilogo - la media aritmetica - e la curva rossa traccia il riepilogo - la mediana. (Poiché spesso la mediana è un intervallo di valori, qui viene seguita la convenzione di tracciare il centro di quell'intervallo.)L 2 L 11.02,0.82,0.23,0.17,0.08,0.77L2L1

Avviso:

  1. La sensibilità della media non ha limiti: quelle linee blu si estendono all'infinito su e giù. La sensibilità della mediana è limitata: ci sono limiti superiori e inferiori alle curve rosse.

  2. Laddove la mediana cambia, tuttavia, cambia molto più rapidamente della media. La pendenza di ciascuna linea blu è (in genere è per un set di dati con valori), mentre le pendenze delle parti inclinate delle linee rosse sono tutte .1 / n n 1 / 21/61/nn1/2

  3. La media è sensibile ad ogni punto dati e questa sensibilità non ha limiti (come indicano le pendenze diverse da zero di tutte le linee colorate nel diagramma in basso a sinistra della prima figura). Sebbene la mediana sia sensibile a ogni punto dati, la sensibilità è limitata (motivo per cui le curve colorate nella trama in basso a destra della prima figura si trovano all'interno di un intervallo verticale stretto attorno allo zero). Queste, naturalmente, sono semplicemente reiterazioni visive della legge della forza (perdita) di base: quadratica per la media, lineare per la mediana.

  4. L'intervallo durante il quale è possibile modificare la mediana può variare tra i punti dati. È sempre limitato da due dei valori quasi medi tra i dati che non variano . (Questi confini sono contrassegnati da deboli linee tratteggiate verticali.)

  5. Poiché il tasso di variazione della mediana è sempre , la quantità con cui può variare è quindi determinata dalla lunghezza di questo gap tra i valori quasi medi dell'insieme di dati.1/2

Sebbene sia comunemente notato solo il primo punto, tutti e quattro i punti sono importanti. In particolare,

  • È sicuramente falso che la "mediana non dipende da ogni valore". Questa figura fornisce un controesempio.

  • Tuttavia, la mediana non dipende "materialmente" da ogni valore, nel senso che sebbene la modifica di singoli valori possa cambiare la mediana, la quantità di cambiamento è limitata dagli spazi tra i valori medio-vicini nel set di dati. In particolare, la quantità di modifica è limitata . Diciamo che la mediana è un riassunto "resistente".

  • Sebbene la media non sia resistente e cambierà ogni volta che viene modificato qualsiasi valore di dati, la velocità di variazione è relativamente piccola. Maggiore è il set di dati, minore è la velocità di modifica. Allo stesso modo, al fine di produrre un cambiamento sostanziale nella media di un set di dati di grandi dimensioni, almeno un valore deve subire una variazione relativamente grande. Ciò suggerisce che la non resistenza della media è preoccupante solo per (a) set di dati di piccole dimensioni o (b) set di dati in cui uno o più dati potrebbero avere valori estremamente lontani dalla metà del batch.

Queste osservazioni - che spero possano evidenziare le cifre - rivelano una profonda connessione tra la funzione di perdita e la sensibilità (o resistenza) dello stimatore. Per ulteriori informazioni, inizia con uno degli articoli di Wikipedia sugli stimatori M, quindi persegue queste idee per quanto ti piace.


Codice

Questo Rcodice ha prodotto le figure e può essere facilmente modificato per studiare qualsiasi altro set di dati allo stesso modo: è sufficiente sostituire il vettore creato casualmente ycon qualsiasi vettore di numeri.

#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
  sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
  apply(col2rgb(c)/255 * x, 2, function(s)  rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics, 
                         function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
  #
  # Create a standard, consistent plot region.
  #
  plot(x.limits, y.limits, type="n", 
       xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
       main=paste("Sensitivity to y[", i, "]", sep=""))
  #legend("topleft", legend=names(statistics), col=colors, lwd=1)
  #
  # Mark the limits of the possible medians.
  #
  n <- length(y)/2
  bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
  abline(v=range(bars), lty=2, col="Gray")
  rug(y, col="Gray", ticksize=0.05);
  #
  # Show which value is being varied.
  #
  rug(y[1], col="Black", ticksize=0.075, lwd=2)
  #
  # Plot the statistics as the value is varied between x.limits.
  #
  invisible(mapply(function(f,c) 
    curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
    statistics, colors))
  y <- c(y[-1], y[1])    # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
                   "Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
  f <- losses[[j]]
  y.range <- range(c(0, 1.1*loss(y, y, f)))
  #
  # Plot the loss (or its rate of change).
  #
  curve(loss(x, y, f), from=min(x.limits), to=max(x.limits), 
        n=1001, lty=3,
        ylim=y.range, xlab="Value", ylab=loss.types[j],
        main=names(losses)[j])
  #
  # Draw the x-axis if needed.
  #
  if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
  #
  # Faintly mark the data values.
  #
  abline(v=y, col="#00000010")
  #
  # Plot contributions to the loss (or its rate of change).
  #
  for (i in 1:length(y)) {
    curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
  }
  rug(y, side=3)
}

3
Offro una taglia, a causa dello stile attento e senza fretta della risposta, oltre alla qualità.
ttnphns,

Grazie! Il tuo apprezzamento per questo post è molto gratificante.
whuber

11

X1,X2,...,Xnnyf(y)yxif(y)=|x1y|+|x2y|++|xny|yf(y)lxiyr=nlyyyf(y)

Δyyxiy|xiy|Δyy|xiy|ΔyΔyyf(y)lΔyrΔy=(lr)Δyf(y)xiyyf(y)lr=0xioyyxi

f(y)f(y)=(x1y)2++(xny)2f(y)yxiy

f(y)


1
xi

grazie per l'elegante spiegazione. Tuttavia, mi sembra così: "Quel numero y quale piccola modifica non cambia la funzione Sum | x_i-y | non dipende da ogni x_i e si chiama mediana". È una nota interessante sulla mediana di un numero pari di n . Ma stavo chiedendo di provare questo: "Quel numero y che minimizza la funzione Somma | x_i-y | non dipende da ogni x_i e si chiama mediana". E allo stesso modo: "Quel numero y che minimizza la funzione Sum (x_i-y) ^ 2 dipende equamente da ogni x_i e si chiama media".
ttnphns,

1
come dovrei dimostrare la parte 'si chiama mediana'? Questo è pazzesco.
Shabbychef,

È un trope di causa. Questa parte non è da provare, spero che tu capisca.
ttnphns,

1
Esiste un risultato simile per la mediana delle deviazioni assolute anziché la somma delle deviazioni assolute? Perché la deviazione assoluta mediana dalla mediana è anche una misura abbastanza interessante di dispersione.
Samthebest,

3
  • x(n)2x(n)
  • aR

i=1n|ximedian|i=1n|xia|

e

i=1n(ximean)2i=1n(xia)2


Bene, come statistico esperto che non ha una formazione matematica fondamentale, conosco ancora molto le differenze e le applicazioni della Media e della Media. Ciò di cui ho bisogno qui è qualcuno da DISEGNARE - logicamente o matematicamente - o (a) da (b) o (b) da (a), per me. Sento di non poter armonizzare (a) con (b) razionalmente me stesso. Marco, trovo molto difficile capire la tua notazione. Se le tue formule sono la deduzione di cui ho bisogno, per favore, potresti "rimuginare" l'idea meno tecnicamente per me?
ttnphns,

PS Finché le tue due disuguaglianze sono state finalmente visualizzate correttamente sul mio schermo vedo che sono solo le mie (b) dichiarazioni. Scrivi "si può dimostrare che ...". Quindi mostramelo. Ho bisogno di una sorta di prova matematica messa in termini comprensibili per un analista di dati che non sia un matematico professionista.
ttnphns,

2
@ttnphns: la tua richiesta di una risposta matematica, piuttosto che intuitiva, sembra incompatibile con la tua richiesta di qualcosa di meno tecnico di quello che la gente ha offerto.
rolando2,

Possiamo semplificare la situazione a 2 o 3 punti e chiederci se la mediana nella disuguaglianza non rigorosa della doppia somma sopra abbia un valore unico? Con due punti sembrerebbe essere soddisfatto da qualsiasi punto tra il 2.
DWin

2

Ehi, ecco un contributo, dopo averlo letto un po '. Probabilmente un po 'in ritardo per la persona che ha chiesto, ma forse vale la pena per qualcun altro.

Nel caso medio:

argminxi=1n(yix)

f(x)=i=1n(yix)2

f(x)=02i=1n(yix)=0

f(x)=0i=1nyi=i=1nx

f(x)=0x=i=1nn

Poiché la funzione è convessa, questo è un minimo

Per il caso mediano

argminxi=1n|yix|

f(x)=i=1n|yix|

f(x)=0i=1nsgn(yix)=0

sgn(x)sgn(x)=1x>0sgn(x)=1x<0

f(x)=0#{yi/yi>x}#{yi/yi<x}=0

# è il cardinale dello spazio, quindi in questo caso discreto, il numero di elementi in esso)

f(x)=0x

Poiché anche la funzione è convessa, questo è di nuovo un minimo.


Grazie. Potrebbe essere utile per me e gli altri. Puoi aggiungere alcuni commenti a parole per il principale delle tue espressioni - per qualcuno che non è abbastanza fluente nella comprensione delle formule. In particolare, l'ultimo di una riga: cosa significa e che cos'è #?
ttnphns,

È chiaro adesso? Ho definito le due funzioni meno comuni
Anthony Martin,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.