Queste sono due domande: una su come funzionano la media e la mediana per minimizzare la perdita e un'altra sulle sensibilità di queste stime ai dati. Le due domande sono collegate, come vedremo.
Riduzione al minimo delle perdite
È possibile creare un riepilogo (o uno stimatore) del centro di un batch di numeri lasciando che il valore di riepilogo cambi e immaginando che ciascun numero nel batch eserciti una forza di ripristino su quel valore. Quando la forza non allontana mai il valore da un numero, allora probabilmente qualsiasi punto in cui l'equilibrio delle forze è un "centro" del lotto.
Perdita quadratica ( )L2
Ad esempio, se dovessimo attaccare una molla classica (seguendo la Legge di Hooke ) tra il sommario e ciascun numero, la forza sarebbe proporzionale alla distanza di ciascuna molla. Le molle tirerebbero il riassunto in questo modo e in quello, alla fine si sistemerebbero in una posizione unica e stabile di energia minima.
Vorrei attirare l'attenzione su un piccolo gioco di prestigio appena accaduto: l' energia è proporzionale alla somma delle distanze al quadrato . La meccanica newtoniana ci insegna che la forza è il tasso di cambiamento di energia. Raggiungere un equilibrio - minimizzare l'energia - porta a bilanciare le forze. Il tasso netto di variazione nell'energia è zero.
Chiamiamo questo " riepilogo " o "riepilogo perdite quadrate".L2
Perdita assoluta ( )L1
È possibile creare un altro riepilogo supponendo che le dimensioni delle forze di ripristino siano costanti , indipendentemente dalle distanze tra il valore e i dati. Le forze stesse non sono costanti, tuttavia, poiché devono sempre attirare il valore verso ciascun punto dati. Pertanto, quando il valore è inferiore al punto dati, la forza è diretta in modo positivo, ma quando il valore è maggiore del punto dati, la forza è diretta negativamente. Ora l' energia è proporzionale alle distanze tra valore e dati. Generalmente ci sarà un'intera regione in cui l'energia è costante e la forza netta è zero. Qualsiasi valore in questa regione che potremmo chiamare " riepilogo " o "riepilogo delle perdite assolute".L1
Queste analogie fisiche forniscono utili intuizioni sui due riassunti. Ad esempio, cosa succede al riepilogo se spostiamo uno dei punti dati? Nel caso con molle collegate, lo spostamento di un punto dati allunga o rilassa la sua molla. Il risultato è una modifica in vigore nel riepilogo, quindi deve cambiare in risposta. Ma nel caso , il più delle volte una modifica in un punto dati non fa nulla per il riepilogo, perché la forza è localmente costante. L'unico modo in cui la forza può cambiare è che il punto dati si sposti nel riepilogo.L 1L2L1
(In effetti, dovrebbe essere evidente che la forza netta su un valore è data dal numero di punti maggiore di esso - che lo tira verso l'alto - meno il numero di punti inferiore di esso - che lo tira verso il basso. Pertanto, il riepilogo deve essere presente in qualsiasi posizione in cui il numero di valori di dati che lo supera sia esattamente uguale al numero di valori di dati inferiore a esso.)L1
Descrive le perdite
Dato che entrambe le forze e le energie si sommano, in entrambi i casi possiamo scomporre l'energia netta in contributi individuali dai punti dati. Rappresentando graficamente l'energia o la forza in funzione del valore di riepilogo, ciò fornisce un quadro dettagliato di ciò che sta accadendo. Il riassunto sarà un luogo in cui l'energia (o "perdita" nel linguaggio statistico) è più piccola. Equivalentemente, sarà una posizione in cui le forze si bilanciano: il centro dei dati si verifica in cui la variazione netta della perdita è zero.
Questa figura mostra le energie e le forze per un piccolo set di dati di sei valori (contrassegnati da deboli linee verticali in ogni diagramma). Le curve nere tratteggiate sono i totali delle curve colorate che mostrano i contributi dei singoli valori. L'asse x indica i possibili valori del riepilogo.
La media aritmetica è un punto in cui la perdita quadrata è ridotta al minimo: sarà posizionata al vertice (in basso) della parabola nera nella trama in alto a sinistra. È sempre unico. La mediana è un punto in cui la perdita assoluta è minimizzata. Come notato sopra, deve avvenire nel mezzo dei dati. Non è necessariamente unico. Si troverà nella parte inferiore della curva nera rotta in alto a destra. (Il fondo in realtà è costituito da una breve sezione piatta tra e ; qualsiasi valore in questo intervallo è una mediana.)- 0,17−0.23−0.17
Analizzare la sensibilità
In precedenza ho descritto cosa può accadere al riepilogo quando si varia un punto dati. È istruttivo tracciare come cambia il riepilogo in risposta alla modifica di un singolo punto dati. (Questi grafici sono essenzialmente le funzioni di influenza empirica . Differiscono dalla normale definizione in quanto mostrano i valori effettivi delle stime piuttosto che la quantità di tali valori vengono modificati.) Il valore del riepilogo è etichettato da "Stima" su y -assicura di ricordarci che questo riepilogo sta valutando la posizione centrale del set di dati. I nuovi valori (modificati) di ciascun punto dati sono mostrati sui loro assi x.
Questa figura presenta i risultati della variazione di ciascuno dei valori dei dati nel batch (lo stesso analizzato nella prima figura). C'è un grafico per ogni valore di dati, che viene evidenziato sul grafico con un lungo segno di spunta nero lungo l'asse inferiore. (I valori dei dati rimanenti vengono visualizzati con brevi segni di spunta grigi.) La curva blu traccia il riepilogo - la media aritmetica - e la curva rossa traccia il riepilogo - la mediana. (Poiché spesso la mediana è un intervallo di valori, qui viene seguita la convenzione di tracciare il centro di quell'intervallo.)L 2 L 1−1.02,−0.82,−0.23,−0.17,−0.08,0.77L2L1
Avviso:
La sensibilità della media non ha limiti: quelle linee blu si estendono all'infinito su e giù. La sensibilità della mediana è limitata: ci sono limiti superiori e inferiori alle curve rosse.
Laddove la mediana cambia, tuttavia, cambia molto più rapidamente della media. La pendenza di ciascuna linea blu è (in genere è per un set di dati con valori), mentre le pendenze delle parti inclinate delle linee rosse sono tutte .1 / n n 1 / 21/61/nn1/2
La media è sensibile ad ogni punto dati e questa sensibilità non ha limiti (come indicano le pendenze diverse da zero di tutte le linee colorate nel diagramma in basso a sinistra della prima figura). Sebbene la mediana sia sensibile a ogni punto dati, la sensibilità è limitata (motivo per cui le curve colorate nella trama in basso a destra della prima figura si trovano all'interno di un intervallo verticale stretto attorno allo zero). Queste, naturalmente, sono semplicemente reiterazioni visive della legge della forza (perdita) di base: quadratica per la media, lineare per la mediana.
L'intervallo durante il quale è possibile modificare la mediana può variare tra i punti dati. È sempre limitato da due dei valori quasi medi tra i dati che non variano . (Questi confini sono contrassegnati da deboli linee tratteggiate verticali.)
Poiché il tasso di variazione della mediana è sempre , la quantità con cui può variare è quindi determinata dalla lunghezza di questo gap tra i valori quasi medi dell'insieme di dati.1/2
Sebbene sia comunemente notato solo il primo punto, tutti e quattro i punti sono importanti. In particolare,
È sicuramente falso che la "mediana non dipende da ogni valore". Questa figura fornisce un controesempio.
Tuttavia, la mediana non dipende "materialmente" da ogni valore, nel senso che sebbene la modifica di singoli valori possa cambiare la mediana, la quantità di cambiamento è limitata dagli spazi tra i valori medio-vicini nel set di dati. In particolare, la quantità di modifica è limitata . Diciamo che la mediana è un riassunto "resistente".
Sebbene la media non sia resistente e cambierà ogni volta che viene modificato qualsiasi valore di dati, la velocità di variazione è relativamente piccola. Maggiore è il set di dati, minore è la velocità di modifica. Allo stesso modo, al fine di produrre un cambiamento sostanziale nella media di un set di dati di grandi dimensioni, almeno un valore deve subire una variazione relativamente grande. Ciò suggerisce che la non resistenza della media è preoccupante solo per (a) set di dati di piccole dimensioni o (b) set di dati in cui uno o più dati potrebbero avere valori estremamente lontani dalla metà del batch.
Queste osservazioni - che spero possano evidenziare le cifre - rivelano una profonda connessione tra la funzione di perdita e la sensibilità (o resistenza) dello stimatore. Per ulteriori informazioni, inizia con uno degli articoli di Wikipedia sugli stimatori M, quindi persegue queste idee per quanto ti piace.
Codice
Questo R
codice ha prodotto le figure e può essere facilmente modificato per studiare qualsiasi altro set di dati allo stesso modo: è sufficiente sostituire il vettore creato casualmente y
con qualsiasi vettore di numeri.
#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
apply(col2rgb(c)/255 * x, 2, function(s) rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics,
function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
#
# Create a standard, consistent plot region.
#
plot(x.limits, y.limits, type="n",
xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
main=paste("Sensitivity to y[", i, "]", sep=""))
#legend("topleft", legend=names(statistics), col=colors, lwd=1)
#
# Mark the limits of the possible medians.
#
n <- length(y)/2
bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
abline(v=range(bars), lty=2, col="Gray")
rug(y, col="Gray", ticksize=0.05);
#
# Show which value is being varied.
#
rug(y[1], col="Black", ticksize=0.075, lwd=2)
#
# Plot the statistics as the value is varied between x.limits.
#
invisible(mapply(function(f,c)
curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
statistics, colors))
y <- c(y[-1], y[1]) # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
"Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
f <- losses[[j]]
y.range <- range(c(0, 1.1*loss(y, y, f)))
#
# Plot the loss (or its rate of change).
#
curve(loss(x, y, f), from=min(x.limits), to=max(x.limits),
n=1001, lty=3,
ylim=y.range, xlab="Value", ylab=loss.types[j],
main=names(losses)[j])
#
# Draw the x-axis if needed.
#
if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
#
# Faintly mark the data values.
#
abline(v=y, col="#00000010")
#
# Plot contributions to the loss (or its rate of change).
#
for (i in 1:length(y)) {
curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
}
rug(y, side=3)
}