Esiste più di una formula "mediana"?

Nel mio lavoro, quando gli individui si riferiscono al valore "medio" di un set di dati, in genere si riferiscono alla media aritmetica (cioè "media" o "valore atteso"). Se fornissi la media geometrica , le persone probabilmente penserebbero che io sia sgarbato o non utile, poiché la definizione di "media" è nota in anticipo.

Sto cercando di determinare se esistono più definizioni della "mediana" di un set di dati. Ad esempio, una delle definizioni fornite da un collega per trovare la mediana di un set di dati con un numero pari di elementi sarebbe:

Algoritmo 'A'

Dividi il numero di elementi per due, arrotondando per difetto.
Tale valore è l'indice della mediana.
vale a dire per il set seguente, la mediana sarebbe 5.
[4, 5, 6, 7]

Questo sembra avere un senso, sebbene l'aspetto arrotondato appaia un po 'arbitrario.

Algoritmo 'B'

In ogni caso, un altro collega ha proposto un algoritmo separato, che era in un suo manuale di statistiche (è necessario ottenere il nome e l'autore):

Dividi il numero di elementi per 2 e conserva una copia degli interi arrotondati per eccesso e per difetto. Denominali n_loe n_hi.
Prendi la media aritmetica degli elementi in n_loe n_hi.
vale a dire per il set seguente, la mediana sarebbe (5+6)/2 = 5.5.
[4, 5, 6, 7]

Questo sembra sbagliato, dato che il valore mediano, 5.5in questo caso, non è in realtà nel set di dati originale. Quando abbiamo sostituito l'algoritmo 'A' con 'B' in un codice di test, si è rotto in modo orribile (come ci aspettavamo).

Domanda

Esiste un "nome" formale per questi due approcci al calcolo della mediana di un set di dati? vale a dire "mediana minore dei due" contro "mediana media-elementi-medi-e-marca-nuovi"?

median definition

— Nube
fonte

Non ho mai visto l'algoritmo "A" considerato una mediana. Non dovrebbe essere un problema il fatto che una statistica descrittiva della tendenza centrale dei dati non sia tra i dati stessi: dopo tutto, la maggior parte dei mezzi non sono nemmeno nei dati. Una proprietà più fondamentale che vorremmo avere la mediana è che non cambia quando la sequenza di dati viene invertita, poiché ordinare i dati dal più piccolo al più grande o dal più piccolo al più piccolo è una questione di gusti arbitraria. Per questo motivo la maggior parte degli autori definisce la mediana come nell'algoritmo "B", poiché questa è di gran lunga la procedura invariante all'ordine di gran lunga più semplice possibile.

— whuber

@whuber L'algoritmo 'A' viene talvolta chiamato low-median . Naturalmente c'è anche un alto mediano corrispondente. Tipicamente la mediana è la media dei due (che può o meno essere un elemento dell'insieme su cui viene calcolata la mediana).

— user603

Un buon momento e un posto per ripetere il commento secondo cui i due valori centrali in un campione ordinato con un numero pari di osservazioni - come 3 e 4 in 1, 2, 3, 4, 5, 6 - devono essere considerati comici (scherzato indipendentemente da SM Stigler, R. Koenker e senza dubbio altri).

— Nick Cox,

Entrambi gli algoritmi non mancano del passaggio cruciale dell'ordinamento dei dati?

— Emil,

Se hai bisogno che la tua "mediana" sia sempre un elemento del set di dati, potresti effettivamente cercare un medoide .

— Ilmari Karonen,

Risposte:

TL; DR - Non sono a conoscenza di nomi specifici assegnati a diversi stimatori di mediane campione. I metodi per stimare le statistiche di esempio da alcuni dati sono piuttosto esigenti e risorse diverse danno definizioni diverse.

In Hogg, McKean e Craig's Introduction to Mathematical Statistics , gli autori forniscono una definizione di mediane di campioni casuali , ma solo nel caso in cui ci sia un numero dispari di campioni! Gli autori scrivono

$n$ $Y_{(n+1)/2}$

$Y_i$ $i$

$n$

L'algoritmo B ha la proprietà che metà dei dati scende al di sopra del valore e metà dei dati scende al di sotto del valore. Alla luce della definizione della mediana di una variabile casuale , questo sembra carino.

Se un particolare stimatore interrompe o meno i test unitari è una proprietà dei test unitari: i test unitari scritti contro uno stimatore specifico non valgono necessariamente quando si sostituisce un altro stimatore. Nel caso ideale, i test unitari sono stati scelti perché riflettono le esigenze critiche della tua organizzazione, non a causa di un argomento dottrinario sulle definizioni.

— Sycorax dice Reinstate Monica
fonte

(+1) Possiamo aggiungere anche questo (1) Quando i valori vengono con i pesi, allora la definizione di mediana in linea di principio e in pratica deve coprire anche quella. (Finora implicitamente nelle risposte, tutti i pesi sono uguali, quindi irrilevanti.) Mentre l'interpolazione lineare nella somma cumulativa dei pesi è più semplice, ci sono situazioni in cui altri tipi di interpolazione potrebbero avere senso. (2) Le definizioni più rigorose della mediana sono generalmente intese a coprire distribuzioni discrete, continue e ibride, comprese quelle con punte di probabilità da qualche parte.

— Nick Cox,

Cosa dice @Sycorax.

È un dato di fatto, ci sono sorprendentemente molte definizioni di quantili generali, quindi in particolare anche di mediane. Hyndman & Fan (1996, The American Statistician ) offre una panoramica che è, AFAIK, ancora completa. I diversi tipi non hanno nomi formali. Potrebbe essere semplicemente necessario essere chiari su quale tipo si sta utilizzando. (Spesso non fa una grande differenza con set di dati di dimensioni realistiche.)

Si noti che è comunemente accettato di avere un valore che non è presente nel set di dati come mediana, ad es. 5,5 come mediana per (4, 5, 6, 7). Questo è il comportamento predefinito per R:

> median(4:7)
[1] 5.5

R median()per impostazione predefinita utilizza il tipo 7 della classificazione di Hyndman & Fan.

— S. Kolassa - Ripristina Monica
fonte

+1 per "Spesso non fa una grande differenza con set di dati di dimensioni realistiche". Ruberò che, invece del mio solito "se fa la differenza materiale, probabilmente avrai bisogno di più dati". :)

— Jason,

Se si dispone di una variabile binaria con valori 0, 1 (diciamo) e con circa ugualmente molti 0 e 1 (media vicino a 0,5), la dimensione del campione di grandi dimensioni non interromperà necessariamente la rotazione mediana riportata avanti e indietro tra 0, 0,5 e 1. Mosteller e Tukey ( Data Analysis and Regression 1977) citano distribuzioni fortemente bimodali e quasi simmetriche come casi in cui la mediana potrebbe non comportarsi particolarmente bene.

— Nick Cox,

Nella madfunzione di R , usa i termini "lo-mediana" per descrivere l'algoritmo A, "hi-mediana" per descrivere l'arrotondamento, e solo "mediana" per descrivere l'algoritmo B (che, come altri hanno notato è di gran lunga la definizione più comune).

Curiosamente, non esiste tale opzione sulla median()funzione di R ! (Ma R quantile()ha il typecontrollo fine.)

— Darren Cook
fonte