Se la media è così sensibile, perché usarla in primo luogo?


84

È noto che la mediana è resistente ai valori anomali. In tal caso, quando e perché dovremmo usare la media in primo luogo?

Una cosa che mi viene in mente forse è capire la presenza di valori anomali, ovvero se la mediana è lontana dalla media, la distribuzione è distorta e forse i dati devono essere esaminati per decidere cosa fare con i valori anomali. Ci sono altri usi?


14
Per quanto riguarda la prima domanda, una breve nota a margine: la media nelle statistiche è solo il primo momento di una popolazione , mentre la mediana non lo è. Cercando di usare CLT, la legge di grandi numeri, ecc., Sei di nuovo legato all'esistenza di momenti finiti. Considerando ad esempio la distribuzione di Cauchy: la mediana esiste, mentre la media no;)
Dmitrij Celov

2
@Dmitrij Questa è una risposta profonda e perspicace. Perché non ci approfondisci in una risposta?
whuber

Se non avessi usato il mezzo avresti ferito i suoi sentimenti? (Mi dispiace, non ho potuto resistere.)
Daniel R Hicks il

3
@ Daniel R Hicks: ed è abbastanza cattivo, vero? (Mi dispiace, non ho potuto resistere anche io).
Muhammad Alkarouri,

3
Questa domanda è molto più interessante del solito: "Come mai non usiamo sempre algoritmi solidi?" domanda, ma potrebbe avere lo stesso pensiero di base che "robust == magico" e se avessimo semplicemente usato metodi robusti, non avremmo dovuto esaminare i nostri dati, comprenderli o preoccuparci di diversi tipi di problemi di accuratezza, dal momento che sono "robusto". Ancora, +1.
Wayne,

Risposte:


113

In un certo senso, la media viene utilizzata perché è sensibile ai dati. Se la distribuzione sembra essere simmetrica e le code sono simili alla distribuzione normale, la media è un sommario molto efficiente della tendenza centrale. La mediana, pur essendo robusta e ben definita per qualsiasi distribuzione continua, è solo tanto efficace quanto la media se i dati provengono da una distribuzione normale. È questa relativa inefficienza della mediana che ci impedisce di usarlo anche più di noi. L'inefficienza relativa si traduce in un'inefficienza assoluta minore man mano che la dimensione del campione aumenta, quindi per grande possiamo essere più liberi di usare la mediana. n2πn

È interessante notare che per una misura della variazione (diffusione, dispersione) esiste uno stimatore molto robusto che è 0,98 efficiente quanto la deviazione standard, vale a dire la differenza media di Gini. Questa è la differenza assoluta media tra due osservazioni qualsiasi. [Devi moltiplicare la deviazione standard del campione per una costante per stimare la stessa quantità stimata dalla differenza media di Gini.] Una misura efficace della tendenza centrale è lo stimatore di Hodges-Lehmann, cioè la mediana di tutte le medie a coppie. Lo useremmo di più se la sua interpretazione fosse più semplice.


13
+1 per menzionare lo stimatore di Hodges-Lehmann della tendenza centrale. Per molti aspetti è tra media e mediana. Se solo fosse facile calcolare in grandi campioni sarebbe più popolare della media o della mediana come misura della posizione, penso.
ttnphns,

A proposito, @Frank, sai quale centro di distribuzione teorica Hodges-Lehmann segue? Non lo faccio - e mi interessano.
ttnphns,

16
Grazie per il commento. Una battuta in R può calcolare in modo efficiente fino a N = 5000: w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2. Un banale programma C, Fortran o Ratfor potrebbe essere chiamato da R per renderlo velocissimo. Il pacchetto ICSNP in R ha un'implementazione abbastanza efficiente con la sua hl.locfunzione. Per N = 5000 era 2,66 volte più veloce del codice sopra (tempo totale 1,5 sec.). Sarebbe bello anche ottenere un intervallo di confidenza in modo efficiente.
Frank Harrell,

@FrankHarrel cosa puoi dire stimatori e per la deviazione standard? Quale costante dovrei usare per la stima di usando la differenza media di Gini per distribuzioni non normali? Non sono riuscito a trovare gli articoli che descrivono la procedura del calcolo di questa costante in fonti di accesso aperto ... Inoltre non ho trovato alcuna informazione sulla solidità della differenza media di Gini, potresti dare un'idea di dove cercarla? Q n σSnQnσ
Demidov tedesco,

1
Stiamo parlando di misure di dispersione, quindi il confronto dei modelli non è in discussione (e non confondere con "Gini's Index"). La differenza media di Gini è una misura assoluta. È più facile da interpretare rispetto alle altre misure. Il fatto che avresti bisogno di calcolare una costante diversa per ogni distribuzione mi dice che non vogliamo usare la costante.
Frank Harrell,

36

Molte ottime risposte già, ma, facendo un passo indietro e diventando un po 'più basilare, direi che è perché la risposta che ricevi dipende dalla domanda che fai. La media e la mediana rispondono a domande diverse: a volte una è appropriata, a volte l'altra.

È semplice dire che la mediana dovrebbe essere usata quando ci sono valori anomali, o per distribuzioni distorte o altro. Ma non è sempre così. Prendi il reddito - quasi sempre riportato con una mediana, e di solito è giusto. Ma se stai osservando il potere di spesa di un'intera comunità, potrebbe non essere giusto. E in alcuni casi, anche la modalità potrebbe essere la migliore (specialmente se i dati sono raggruppati).


8
+1 per l'ovvio punto che nessun altro sembrava affrontare: sono concetti diversi e rispondono a domande diverse. Inoltre, in molti casi si perde molto condensando l'intera distribuzione in un numero di riepilogo, quindi a volte entrambi fanno un lavoro scadente.
Michael McGowan,

25

Quando un valore è spazzatura per noi, lo chiamiamo "outliar" e vogliamo che l'analisi sia robusta (e preferisca la mediana); quando lo stesso valore è attraente lo chiamiamo "estremo" e vogliamo che l'analisi sia sensibile ad esso (e preferiamo la media). Dialettica ...

La media reagisce allo stesso modo a uno spostamento di valore indipendentemente da dove nella distribuzione ha luogo lo spostamento. Ad esempio, in 1 2 3 4 5te puoi aumentare qualsiasi valore di 2 - l'aumento della media sarà lo stesso. La reazione della mediana è meno "coerente": aggiungi 2 ai punti dati 4 o 5 e la mediana non aumenterà; ma aggiungi 2 al punto 2 - in modo che lo spostamento sia sopra la mediana e la mediana cambi radicalmente (molto più che media cambierà).

La media si trova sempre esattamente. La mediana non lo è; ad esempio, nel set 1 2 3 4 qualsiasi valore compreso tra 2 e 3 può essere chiamato mediana. Pertanto, le analisi basate sui mediani non sono sempre una soluzione unica.

La media è un luogo con una somma minima di deviazioni quadrate. Molte attività di ottimizzazione basate sull'algebra lineare (inclusa la famosa regressione OLS) minimizzano questo errore al quadrato e quindi implicano il concetto di media. Mediano un luogo di somma minima di deviazioni assolute. Le tecniche di ottimizzazione per ridurre al minimo tale errore sono non lineari e sono più complesse / poco conosciute.


2
+1 Ho un po 'di preoccupazione sul fatto che il primo paragrafo possa essere frainteso in quanto il rilevamento implicito è del tutto un processo soggettivo. Non penso che tu intenda implicarlo, comunque.
whuber

8
+1 | Penso che la prima frase implichi che l'applicazione del rilevamento anomalo sia del tutto soggettiva e quindi voto per mantenere così com'è.
Giovanni,

2
Intendevo dire che il rilevamento esterno è una procedura rigorosa con radici filosofiche o morali soggettive
ttnphns,

3
@ttnphns, l'ortografia "outliar" invece di "outlier" è intenzionale o no?
mpiktas,

1
Errore di battitura involontario.
ttnphns,

16

Ci sono molte risposte a questa domanda. Eccone uno che probabilmente non vedrai altrove, quindi lo includo qui perché credo sia pertinente all'argomento. Le persone spesso credono che, poiché la mediana è considerata una misura solida rispetto agli outlier, sia robusta per quasi tutto. In effetti, è anche considerato robusto da distorsioni nelle distribuzioni distorte. Queste due robuste proprietà della mediana sono spesso insegnate insieme. Si potrebbe notare che le distribuzioni inclinate sottostanti tendono anche a generare piccoli campioni che sembrano avere valori anomali e la saggezza convenzionale è che si usano i mediani in tali situazioni.

#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
    rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
    }

(solo una dimostrazione che questo è distorto e la forma di base)

hist(rexg(1e4, 0, 1, 1))

tracciare

Ora, vediamo cosa succede se campioniamo da questa distribuzione varie dimensioni del campione e calcoliamo la mediana e intendiamo vedere quali sono le differenze tra loro.

#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red') 
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)

Plot2

Come si può vedere dalla trama sopra, la mediana (in rosso) è molto più sensibile alla n della media. Ciò è contrario ad alcune saggezze convenzionali riguardo all'uso di mediane con ns bassi, specialmente se la distribuzione potrebbe essere distorta. E, rafforza il punto che la media è un valore noto mentre la mediana è sensibile ad altre proprietà, una se la quale è la n.

Questa analisi è simile a Miller, J. (1988). Un avvertimento sul tempo di reazione mediano. Journal of Experimental Psychology: Human Perception and Performance , 14 (3): 539–543.

REVISIONE

Pensando al problema dell'inclinazione, ho considerato che l'impatto sulla mediana potrebbe essere solo perché in piccoli campioni hai una maggiore probabilità che la mediana sia nella coda della distribuzione, mentre la media sarà quasi sempre ponderata in base a valori più vicini al modalità. Pertanto, forse se uno stesse semplicemente campionando con una probabilità di valori anomali, potrebbero verificarsi gli stessi risultati.

Quindi ho pensato a situazioni in cui possono verificarsi valori anomali e gli sperimentatori possono tentare di eliminarli.

Se gli outlier si sono verificati in modo coerente, come uno in ogni singolo campionamento di dati, le mediane sono robuste contro l'effetto di questo outlier e vale la storia convenzionale sull'uso delle mediane.

Ma di solito non è così che vanno le cose.

Si potrebbe trovare un valore anomalo in pochissime celle di un esperimento e decidere di usare la mediana invece della media in questo caso. Ancora una volta, la mediana è più robusta ma il suo impatto effettivo è relativamente piccolo perché ci sono pochissimi valori anomali. Questo sarebbe sicuramente un caso più comune di quello sopra, ma l'effetto dell'uso di una mediana sarebbe probabilmente così piccolo che non importerebbe molto.

Forse più comunemente i valori anomali potrebbero essere una componente casuale dei dati. Ad esempio, la vera media e la deviazione standard della popolazione può essere di circa 0 ma c'è una percentuale del tempo che campioniamo da una popolazione anomala in cui la media è 3. Considera la seguente simulazione, in cui viene campionata solo una tale popolazione variando il campione taglia.

#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
    outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
    numOutliers <- sum(outPos)
    y <- matrix( rnorm(N*n), ncol = N )
    y[which(outPos==1)] <- rnorm(numOutliers, 4)
    return(y)
    }

outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red') 
lines(ns,yM)

risultati

La mediana è in rosso e media in nero. Questo è un risultato simile a quello di una distribuzione distorta.

In un esempio relativamente pratico dell'uso delle mediane per evitare gli effetti dei valori anomali, si possono trovare situazioni in cui la stima è influenzata da n molto di più quando si usa la mediana rispetto a quando si usa la media.


Bell'esempio, ma dipende davvero dalla distribuzione. Se si utilizza una distribuzione normale o una distribuzione uniforme, il grafico è molto diverso, con le due linee sovrapposte. È la distribuzione esponenziale che produce la differenza.
nico,

1
-1 Questa risposta confonde "sensibilità" con "distorsione".
whuber

4
Molto meglio; Ho rimosso il downvote. Ma sono incuriosito dalla nuova spiegazione: potresti indicare qualche fonte - un testo, un documento o un sito Web - che in realtà afferma che "[la mediana] è anche considerata robusta per la distorsione nelle distribuzioni distorte" e spiega cosa potrebbe significare? Non ho mai trovato una simile affermazione prima e non sono sicuro di cosa stia davvero dicendo.
whuber

3
È più conoscenza popolare per gestire i tempi di reazione (noti per essere distorti) nella ricerca psicologica. Ho inserito un riferimento a un documento che confuta la saggezza popolare in psicologia (che mi dispiace non riferirmi prima).
Giovanni,

3
A proposito, nonostante la carta Miller (1988) le persone usano ancora i tempi di reazione mediana negli studi con manipolazioni di probabilità in cui le condizioni hanno un numero diverso di campioni e quello inferiore è di solito piuttosto piccolo.
Giovanni,

11
  • Dalla media è facile calcolare la somma su tutte le voci, ad esempio se si conosce il reddito medio della popolazione e le dimensioni della popolazione, è possibile calcolare immediatamente il reddito totale dell'intera popolazione.

  • La media è semplice da calcolare in O(n)termini di complessità temporale. Il calcolo della mediana in tempo lineare è possibile ma richiede più pensiero. L'ovvia soluzione che richiede l'ordinamento presenta una O(n log n)complessità temporale ( ) peggiore .

E suppongo che ci sia un'altra ragione per cui la media è più popolare della mediana:

  • La media viene insegnata a più persone a scuola ed è probabilmente insegnata prima di insegnare la mediana

Per il tuo punto di complessità temporale, dipende da come sono memorizzati i valori. Se i valori sono già ordinati, è certamente possibile calcolare la mediana nella complessità temporale peggiore di O (1).
luiscubal,

Sono d'accordo - la sua applicabilità nei calcoli come le somme è uno dei principali vantaggi della media. Mentre spesso preferisco la mediana quando l'obiettivo è descrivere qualcosa, spesso usiamo la media quando è un input per un altro calcolo.
Jonathan,

5

"È noto che la mediana è resistente agli outlier. In tal caso, quando e perché dovremmo usare la media in primo luogo?"

Nel caso in cui si sappia che non ci sono valori anomali, ad esempio quando si conosce il processo di generazione dei dati (ad esempio nelle statistiche matematiche).

Bisogna sottolineare il banale, che, queste due quantità (media e mediana) in realtà non misurano la stessa cosa e che la maggior parte degli utenti chiede la prima quando ciò che realmente dovrebbe essere interessato alla seconda (questo punto è ben illustrato da i test di Wilcoxon basati su mediana che sono interpretati più facilmente rispetto ai test t).

Quindi, ci sono casi in cui, per qualche motivo di accadimento o altro, un regolamento impone l'uso del suo significato.


2

Se la preoccupazione riguarda la presenza di valori anomali, ci sono alcuni modi diretti per controllare i dati.

I valori anomali, quasi per definizione, entrano nei nostri dati quando qualcosa cambia nel processo di generazione dei dati o nel processo di raccolta dei dati. cioè i dati cessano di essere omogenei. Se i tuoi dati non sono omogenei, né la media né la mediana hanno molto senso, poiché stai cercando di stimare la tendenza centrale di due set di dati separati che sono stati mescolati insieme.

Il metodo migliore per garantire l'omogeneità è esaminare i processi di generazione e raccolta dei dati per garantire che tutti i tuoi dati provengano da un unico insieme di processi. Niente batte un po 'di potere cerebrale, qui.

Come controllo secondario, puoi passare a uno dei numerosi test statistici: chi-quadrato, test Q di Dixon, test di Grubb o grafico di controllo / grafico di comportamento del processo (in genere X-bar R o XmR). La mia esperienza è che, quando i dati possono essere ordinati al momento della raccolta, i grafici di comportamento del processo sono più efficaci nel rilevare valori anomali rispetto ai test anomali. Questo uso delle classifiche può essere alquanto controverso, ma credo che sia del tutto coerente con l'intento originale di Shewhart ed è un uso esplicitamente sostenuto da Donald Wheeler. Indipendentemente dal fatto che si utilizzino i test anomali o le tabelle di comportamento del processo, ricordare che un "outlier" rilevato sta semplicemente segnalando il potenzialenon omogeneità che deve essere ulteriormente esaminata. Raramente ha senso eliminare i punti dati se non si hanno spiegazioni sul perché fossero valori anomali.

Se si utilizza R, il pacchetto outlier fornisce i test outlier e per i grafici di comportamento del processo sono presenti qcc , IQCC e qAnalyst. Ho una preferenza personale per l'uso e l'output del pacchetto qcc.


2

Quando potresti desiderare la media?

Esempi di finanziamento:

  • Rendimenti obbligazionari:
    • Il rendimento delle obbligazioni mediane sarà generalmente di alcuni punti percentuali.
    • Il rendimento medio delle obbligazioni potrebbe essere basso o alto a seconda del tasso di default e del recupero in default. La mediana ignorerà tutto questo!
    • Buona fortuna spiegando ai vostri investitori: "So che il nostro fondo è in calo del 40% quest'anno perché quasi la metà sono obbligazioni fallite senza recupero, ma il nostro legame mediano ha restituito l'1%!"
  • Rendimenti di capitale di rischio:
    • Stessa cosa al contrario. L'investimento mediano in VC o angel è un fallimento e tutto il ritorno arriva da pochi vincitori! (Nota a margine / avviso: le stime dei rendimenti di capitale di rischio o di private equity sono altamente problematiche ... attenzione!)

Quando si forma un portafoglio diversificato, decidendo in che cosa investire e in che misura, la media e la covarianza dei rendimenti probabilmente influiranno in modo rilevante sul problema di ottimizzazione.


D'accordo, ma sembra che la media o la mediana non siano al centro di nessuna di queste situazioni: è piuttosto che i totali possono essere le quantità chiave. Naturalmente ciò implica a sua volta che ciò significherebbe riassunti migliori delle mediane. Ma dato che il ritorno del legame mediano potrebbe essere una risposta sciocca, ma qualcuno lo propone?
Nick Cox,

@NickCox Due commenti. (1) Il punto è che il ritorno del legame mediano sia sciocco! C'è una grande teoria in queste risposte, ma ho pensato che un esempio estremamente semplice potesse aggiungere un po 'di colore. Per citare la risposta di Frank, "la media viene utilizzata perché è sensibile ai dati" e i rendimenti del portafoglio offrono una situazione semplice e comprensibile in cui lo si vorrebbe. (2) La distinzione tra la cura del "totale" e la cura della "media" può diventare piuttosto nebulosa. "Dovrei investire in un hedge fund?" Per rispondere a questo, forse vorrei sapere "qual è il rendimento medio degli hedge fund?"
Matthew Gunn,

1
(1) Sono d'accordo, come detto; la mia domanda è solo se la mediana è menzionata seriamente nella letteratura didattica o di ricerca per questo scopo. (2) Non penso che il mio punto sia nebuloso; è una semplice domanda di ciò che viene prima, cioè è di interesse primario praticamente. Vedo i titoli "banda imprigionata per un totale di 200 anni" e so perché sono stampati, ma è comunque uno strano modo di riassumere. Al contrario, 200 morti in una serie di catastrofi sono primari, piuttosto che 5 catastrofi con una media di 40 morti in ciascuno. Il (piccolo) problema è la scelta dell'istruzione di riepilogo più adatta.
Nick Cox,

@NickCox Punto preso. Sono d'accordo che ti preoccupi del totale dei tuoi investimenti. Tuttavia, quando si forma un portafoglio e si decidono pesi di portafoglio su titoli specifici, si avrà cura delle proprietà del rendimento di quel titolo. Non ho intenzione di acquistare TUTTE le obbligazioni municipali, non mi interessa direttamente il totale, ma mi interessa quale sia il rendimento medio di un'obbligazione municipale? Quali sono le proprietà di rischio / rendimento se dovessi aggiungerne alcune al mio portafoglio?
Matthew Gunn,

Concordato. Questo è il territorio qui.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.