La mediana è un tipo di media, per una certa generalizzazione di "media"?


20

Il concetto di "media" è molto più ampio della media aritmetica tradizionale; si estende fino a includere la mediana? Per analogia,

raw dataidraw datameanraw meanid1arithmetic meanraw datarecipreciprocalsmeanmean reciprocalrecip1harmonic meanraw dataloglogsmeanmean loglog1geometric meanraw datasquaresquaresmeanmean squaresquare1root mean squareraw datarankranksmeanmean rankrank1median

L'analogia che sto disegnando è la media quasi aritmetica , data da:

Mf(x1,,xn)=f1(1ni=1nf(xi))

Per fare un confronto, quando diciamo che la mediana di un set di dati a cinque elementi è uguale al terzo elemento, possiamo vedere che equivale a classificare i dati da uno a cinque (che potremmo indicare con una funzione ); prendendo la media dei dati trasformati (che è tre); e rileggere il valore dell'elemento di dati che aveva rango tre (una sorta di ).ff1

Negli esempi di media geometrica, media armonica e RMS, era una funzione fissa che può essere applicata a qualsiasi numero in isolamento. Al contrario, sia per assegnare un grado, sia per tornare indietro dai dati ai dati originali (interpolando ove necessario) è richiesta la conoscenza dell'intero set di dati. Inoltre, nelle definizioni che ho letto della media quasi aritmetica, deve essere continuo. La mediana è mai considerata come un caso speciale di media quasi aritmetica, e in tal caso come viene definita la f ? Oppure la mediana è mai descritta come un'istanza di qualche altra nozione più ampia di "media"? La media quasi aritmetica non è certamente l'unica generalizzazione disponibile.fff

Parte del problema è terminologica (cosa significa "significato" comunque, specialmente in contrasto con "tendenza centrale" o "media"?). Ad esempio, nella letteratura per i sistemi di controllo fuzzy , una funzione di aggregazione F:[a,b]×[a,b][a,b] è una funzione crescente con F(a,a)=a e F(b,b)=b ; una funzione di aggregazione per la quale min(x,y)F(x,y)max(x,y) per tutte le x,y[a,b] è chiamata "media" (in a senso generale). Tale definizione è, inutile dirlo, incredibilmente ampia! E in questo contesto la mediana viene in effetti indicata come un tipo di media. [1]Ma sono curioso di sapere se le caratterizzazioni meno ampie della media possono ancora estendersi abbastanza lontano da comprendere la mediana - il cosiddetto mezzo generalizzato (che potrebbe essere meglio descritto come "media del potere") e il significato di Lehmer no, ma altri . Per quello che vale, Wikipedia include "mediana" nella sua lista di "altri mezzi" , ma senza ulteriori commenti o citazioni.

[1] : Una definizione così ampia di media, opportunamente estesa per più di due input, sembra standard nel campo del controllo fuzzy e spuntata più volte durante le ricerche su Internet per esempi della mediana che viene descritta come mediana; Citerò, ad esempio, Fodor, JC e Rudas, IJ (2009), " Su alcune classi di funzioni di aggregazione che sono migratorie ", Conf. IFSA / EUSFLAT. (pagg. 653-656). Per inciso, questo documento rileva che uno dei primi utenti del termine "media" ( moyenne ) era Cauchy , nella Cours d'analyse de l'École royale polytechnique, 1ère partie; Analizzare algébrique (1821). Contributi successivi di Aczél , Chisini ,e de Finetti nello sviluppo di concetti più generali di "media" rispetto a Cauchy sono riconosciuti in Fodor, J. e Roubens, M. (1995), " Sulla significatività dei mezzi ", Journal of Computational and Applied Mathematics , 64 (1), 103-115.


Penso che la media aritmetica, la mediana e il minerale siano spesso chiamati in generale "media" e la parola viene talvolta usata in modo ambiguo. Come mentire con le statistiche il libro lo usa come esempio di "mentire" con le statistiche. (Capisco che la tua domanda è più generale, quindi pubblicala come commento.)
Tim

@Tim Ho l'impressione poco scientifica che sia raro vedere "mode" indicato come "mean". Ma c'è sicuramente un enorme nesso di confusione attorno all'uso di "media" (che a volte viene usato come sinonimo di "media aritmetica" e altre volte include misure di tendenza centrale che non sono affatto mezzi) e "media" (che in l'uso generale, piuttosto che in senso tecnico, è principalmente ma non esclusivamente usato per "media aritmetica"). Per inciso, è anche un argomento difficile per le ricerche su Internet, a causa degli altri significati di "cattivo"!
Silverfish,

3
i mezzi (aritmetici, geometrici, armonici, motorizzati, esponenziali, combinatori, ecc.) sono "medie analitiche". Mediana, quantili, tantili sono "medie posizionali". Il posizionamento è abbastanza diverso da log, quadrato ecc. Perché è la trasformazione monotonica di qualsiasi variabile in uniforme variata e non vi è alcun percorso indietro per non trasformare.
ttnphns,

A proposito, il termine "media generalizzata" è preoccupato en.wikipedia.org/wiki/Generalized_mean
ttnphns

3
Se si consentono pesi nel calcolo , la mediana potrebbe essere facilmente considerata come una sorta di media. Allo stesso modo, ma non in modo identico, il concetto di mezzi tagliati include certamente i mediani come un caso speciale limitante o di cortesia. stata-journal.com/article.html?article=st0313 è una recensione abbastanza recente. iwixi,iwi=1
Nick Cox,

Risposte:


9

Ecco un modo in cui potresti considerare una mediana come un "tipo generale di media": in primo luogo, definisci attentamente la tua media aritmetica ordinaria in termini di statistiche dell'ordine:

x¯=iwix(i),wi=1n.

Quindi sostituendo quella media ordinaria delle statistiche dell'ordine con qualche altra funzione di ponderazione, otteniamo la nozione di "media generalizzata" che tiene conto dell'ordine.

In tal caso, una serie di potenziali misure del centro diventano "tipi generalizzati di mezzi". Nel caso della mediana, per dispari , e tutti gli altri sono 0, e per pari , .w ( n + 1 ) / 2 = 1 n w nnw(n+1)/2=1nwn2=wn2+1=12

Allo stesso modo, se consideriamo la stima M, le stime della posizione potrebbero anche essere pensate come una generalizzazione della media aritmetica (dove per la media, è quadratico, è lineare o la funzione del peso è piatta), e la mediana rientra anche in questa classe di generalizzazioni. Questa è una generalizzazione in qualche modo diversa dalla precedente.ψρψ

Esistono molti altri modi in cui possiamo estendere la nozione di "media" che potrebbe includere la mediana.


Questo è molto carino. Strettamente correlato a questa risposta, che è discussa negli articoli citati nella domanda: la media ponderata ordinata, o OWA
Silverfish,

11

Se si considera la media come il punto che minimizza la funzione di perdita quadratica SSE, allora la mediana è il punto che minimizza la funzione di perdita lineare MAD, e la modalità è il punto che minimizza alcune funzioni di perdita 0-1. Nessuna trasformazione richiesta.

Quindi la mediana è un esempio di una media di Fréchet .


3
@Mike Anderson: Beh, questo dimostra che i media sono una media di Frechet (vedi l'articolo di Wikipedia): en.wikipedia.org/wiki/Fr%C3%A9chet_mean
kjetil b halvorsen

@Kjetil Eccellente! Il fatto che la mediana sia un esempio di una media di Fréchet è esattamente una risposta alla mia domanda "la mediana è mai stata descritta come un'istanza di un'altra nozione più ampia di" media "?" E +1 a Mike Anderson. Spero che queste informazioni vengano modificate nella risposta.
Silverfish,

2
Ho aggiunto il commento di @ Kjetil alla risposta in modo che venga visualizzato in una ricerca nel sito "Frechet mean". Grazie a tutti e due.
Silverfish,

4

Una generalizzazione facile ma fruttuosa è quella dei mezzi ponderati , dove n i = 1 w i = 1 . Chiaramente la media comune o da giardino è il caso speciale più semplice con pesi uguali w i = 1 / n .i=1nwixi/i=1nwi,i=1nwi=1wi=1/n

Lasciare che i pesi dipendano dall'ordine dei valori in grandezza, dal più piccolo al più grande, indica vari altri casi speciali, in particolare l'idea di una media ritagliata , nota anche con altri nomi.

Per evitare un uso eccessivo della notazione in cui non è necessario o particolarmente utile, immagina ad esempio di ignorare i valori più piccoli e più grandi e di prendere la media (equamente ponderata) degli altri. Oppure immagina di ignorare i due più piccoli e i due più grandi e di prendere la media degli altri; e così via. Il taglio più vigoroso ignorerebbe tutti tranne uno o due valori medi in ordine, a seconda che il numero di valori fosse pari o dispari, che è naturalmente solo la mediana familiare . Nulla nell'idea di tagliare ti impegna a ignorare un numero uguale in ciascuna coda di un campione, ma dire di più sul taglio asimmetrico ci allontanerebbe dall'idea principale in questo thread.

In breve, mezzi (non qualificati) e mediane sono casi estremamente limitanti della famiglia di mezzi (simmetrici) tagliati. L'idea generale è quella di consentire compromessi tra un ideale di utilizzare tutte le informazioni nei dati e un altro ideale di proteggersi da punti di dati estremi, che possono essere valori anomali inaffidabili.

Vedi il riferimento qui per una recensione abbastanza recente.


4

La domanda ci invita a caratterizzare il concetto di "media" in un senso sufficientemente ampio da comprendere tutti i mezzi usuali - mezzi di potere, mezzi di , mediane, mezzi tagliati - ma non in modo così ampio che diventa quasi inutile per l'analisi dei dati . Questa risposta discute alcune delle proprietà assiomatiche che dovrebbe avere qualsiasi definizione ragionevolmente utile di "media".Lp


Assiomi di base

Una definizione utilmente ampia di "media" ai fini dell'analisi dei dati sarebbe qualsiasi sequenza di funzioni deterministiche ben definite per A R e n = 1 , 2 , ... tale chefn:AnAARn=1,2,

(1) per tutti x = ( x 1 , x 2 , , x n ) A n (una media si trova tra gli estremi),min(x)fn(x)max(x)x=(x1,x2,,xn)An

(2) è invariante rispetto alle permutazioni dei suoi argomenti (significa che non importa l'ordine dei dati), efn

(3) ogni sta diminuendo in ciascuno dei suoi argomenti (quando i numeri aumentano, la loro media non può diminuire).fn

Noi dobbiamo permettere per di essere un sottoinsieme proprio di numeri reali (come ad esempio tutti i numeri positivi), perché un sacco di mezzi, come medie geometriche, sono definiti solo su tali sottoinsiemi.A

Potremmo anche volerlo aggiungere

(1 ') esistono almeno alcuni per i quali min ( x ) f n ( x ) max ( x ) (i mezzi non sono estremi). (Non possiamo esigere che questo valga sempre . Ad esempio, la mediana di ( 0 , 0 , , 0 , 1 ) è uguale a 0 , che è il minimo.)xAmin(x)fn(x)max(x)(0,0,,0,1)0

Queste proprietà sembrano catturare l'idea alla base di un "cattivo" che è una sorta di "valore medio" di un insieme di dati (non ordinati).

Assiomi di coerenza

Sono inoltre tentato di stabilire il criterio di coerenza piuttosto meno ovvio

(4.a) L'intervallo di come t varia nell'intervallo [ min ( x ) , max ( x ) ] include f n ( x ) . In altre parole, è sempre possibile lasciare invariata la media attigua ad un valore t appropriatofn+1(t,x1,x2,,xn)t[min(x),max(x)]fn(x)ta un set di dati. In congiunzione con (3), implica che l'aggiunta di valori estremi a un set di dati attirerà la media verso quegli estremi.

Se desideriamo applicare il concetto di media a una distribuzione o "popolazione infinita", un modo sarebbe quello di ottenerlo nel limite di campioni casuali arbitrariamente grandi. Naturalmente il limite potrebbe non esistere sempre (non esiste per la media aritmetica quando la distribuzione non ha aspettative, per esempio). Pertanto non voglio imporre alcun assioma aggiuntivo per garantire l'esistenza di tali limiti, ma quanto segue sembra naturale e utile:

(4.b) Ogni volta che è limitato e x n è una sequenza di campioni da una distribuzione F supportata su A , allora il limite di f n ( x n ) esiste quasi sicuramente. Ciò impedisce alla media di "rimbalzare per sempre" all'interno di A anche se le dimensioni del campione diventano sempre più grandi.AxnFAfn(xn)A

Sulla stessa linea, potremmo restringere ulteriormente l'idea di un mezzo per insistere sul fatto che diventi uno stimatore migliore della "posizione" all'aumentare delle dimensioni del campione:

(4.c) Ogni volta che è limitato, la varianza della distribuzione campionaria di f n ( X ( n ) ) per un campione casuale X ( n ) = ( X 1 , X 2 , , X n ) di F è non diminuendo in n .Afn(X(n))X(n)=(X1,X2,,Xn)Fn

Assioma di continuità

Potremmo prendere in considerazione la possibilità di chiedere modi per variare "bene" con i dati:

(5) è separatamente continuo in ogni argomento (una piccola modifica nei valori dei dati non dovrebbe indurre un balzo improvviso nella loro media).fn

Questo requisito potrebbe eliminare alcune strane generalizzazioni, ma non esclude alcun mezzo noto. Escluderà alcune funzioni di aggregazione.

Un assioma di invarianza

Possiamo concepire i mezzi come applicabili ai dati di intervallo o rapporto (nel senso ben noto di Stevens). Non possiamo pretendere che siano invarianti rispetto a spostamenti di posizione (la media geometrica non lo è), ma siamo in grado di richiedere

(6) per tutti xA n e tutti λ > 0 per i quali λ xA n . Questo dice solo che siamo liberi di calcolare f n usando qualsiasi unità di misura che ci piace.fn(λx)=λfn(x)xAnλ>0λxAnfn

Tutti i mezzi menzionati nella domanda soddisfano questo assioma tranne alcune funzioni di aggregazione.


Discussione

Le funzioni di aggregazione generale , come descritto nella domanda, non soddisfano necessariamente gli assiomi (1 '), (2), (3), (5) o (6). Se soddisfano gli assiomi di coerenza può dipendere da come vengono estesi a n > 2 .f2n>2

La solita mediana del campione gode di tutte queste proprietà assiomatiche.

Potremmo aumentare gli assiomi di coerenza da includere

(4.d) per tutti xA n .f2n(x;x)=fn(x)xAn.

Ciò implica che quando tutti gli elementi di un set di dati vengono ripetuti ugualmente spesso, la media non cambia. Questo potrebbe essere troppo forte, però: la media Winsorized non ha questa proprietà (tranne asintoticamente). Lo scopo di Winsorizing al livello del è di fornire resistenza alle variazioni di almeno il 100 α % dei dati in entrambi i casi estremi. Ad esempio, la media Winsorized al 10% di ( 1 , 2 , 3 , 6 ) è la media aritmetica di ( 2 , 2 , 3 , 3 )100α% 100α%(1,2,3,6)(2,2,3,3), pari a , ma la media Winsorized del 10% di ( 1 , 1 , 2 , 2 , 3 , 3 , 6 , 6 ) è 3,5 .2.5(1,1,2,2,3,3,6,6)3.5

Non so quale degli assiomi di coerenza (4.a), (4.b) o (4.c) sarebbe più desiderabile o utile. Sembrano indipendenti: non credo che due di essi implichino il terzo.


(+1) Penso che (1 '), "significa che non sono estremi", è un punto interessante. Molti definizioni altrimenti naturali di medio capita di includere il minimo e massimo come casi speciali o limitano: questo è vero di mezzi di potenza , mezzi Lehmer , Fréchet medio , Chisini medio e Stolarsky medio . Anche se sembra un po 'strano riferirsi a loro come "nella media"!
Silverfish,

Sì, i casi limite sono inevitabili. Ma per i set di dati finiti potremmo voler insistere sul fatto che né il massimo né il minimo si qualificano come "mezzi".
whuber

D'altra parte, non è solo vero che "la solita mediana del campione gode di tutte queste proprietà assiomatiche", ma anche il solito quantile del campione (a meno che non mi sia perso qualcosa). È anche un po 'strano fare riferimento, ad esempio, al quartile superiore come "media" (anche se l'ho visto usato come una misura della tendenza centrale su dati molto distorti). Se accettiamo tutti gli altri quantili, non è più così perverso ammettere minimi e massimi. Ma posso certamente vedere che potrebbe essere desiderabile mantenere almeno il diritto di escluderli.
Silverfish,

1
Non sono turbato dall'ammissione dei quantili nel pantheon dei mezzi. Dopotutto, per determinate famiglie di distribuzioni, determinati quantili non mediani coincideranno con mezzi aritmetici, quindi potresti essere nei guai se provassi ad eliminare assiomaticamente questa possibilità. (Si consideri una famiglia di distribuzioni lognormali di SD geometrica costante, per esempio.) Se la media aritmetica non può qualificarsi come media, tutto è perduto!
whuber

1
n>2

2

Penso che la mediana possa essere considerata un tipo di generalizzazione della media aritmetica. In particolare, la media aritmetica e la mediana (tra le altre) possono essere unificate come casi speciali della media di Chisini. Se eseguirai un'operazione su un set di valori, la media di Chisini è un numero che puoi sostituire con tutti i valori originali nel set e ottenere comunque lo stesso risultato. Ad esempio, se si desidera sommare i valori, la sostituzione di tutti i valori con la media aritmetica produrrà la stessa somma. L'idea è che un determinato valore sia rappresentativo dei numeri nell'insieme nel contesto di una determinata operazione su tali numeri. (Un'interessante implicazione di questo modo di pensare è che un dato valore - la media aritmetica - può essere considerato rappresentativo solo supponendo che tu stia facendo certe cose con quei numeri.)

Questo è meno ovvio per la mediana (e noto che la mediana non è elencata come uno dei mezzi di Chisini su Wolfram o Wikipedia ), ma se si consentissero operazioni su gradi, la mediana potrebbe rientrare nella stessa idea.


Mf(M,M,...,M)=f(x1,x2,...,xn)

Questa è una buona domanda, @Silverfish, ci ho pensato ;-). Il mio pensiero è più che, nel tuo Q & nella discussione nei commenti, il framework concettuale sembra essere come ottenere la media e come recuperare i dati dalla media; OTOH, il mio inquadramento è ciò per cui usiamo la media: vale a dire una rappresentazione compressa dei dati con la minima perdita di informazioni.
gung - Ripristina Monica

I've added some citations to the question which show a wider range of conceptual frameworks, including this one. At the moment I can't see a better f di "prendere la mediana", che non sembra del tutto nello spirito del pezzo!
Silverfish

@Silverfish, concedo che mi sembra un buco piuttosto problematico nella mia posizione.
gung - Ripristina Monica

While the insight from Chisini's set-up is that, for example, the arithmetic mean preserves the sum, while the geometric mean preserves the product, it's still true (just less interesting) that the arithmetic mean of (x¯,x¯,...,x¯) is also x¯ and so on. So I'm not convinced it's a fatal blow.
Silverfish

-1

La domanda non è ben definita. Se siamo d'accordo sulla definizione comune di "strada" di media come la somma di n numeri divisi per n, allora abbiamo un interesse nel terreno. Inoltre, se osservassimo le misure di tendenza centrale, potremmo dire che sia la media che la mediana sono generealizzazione ma non l'una dell'altra. Parte del mio background è non parametrico, quindi mi piace la mediana e la robustezza che fornisce, l'invarianza alla trasformazione monotonica e altro ancora. ma ogni misura ha il suo posto a seconda dell'obiettivo.


2
Benvenuto sul nostro sito, Bob. Credo che se leggi fino alla fine della domanda - in particolare il lungo penultimo paragrafo - scoprirai che è preciso e ben definito. (In caso contrario, sarebbe una buona idea per spiegare che cosa si intende per "non ben definito.) I vostri commenti non sembrano davvero per affrontare quello che si chiede.
whuber

1
In realtà sono d'accordo con la sensazione di Bob che la domanda non sia terribilmente ben definita, nel senso che il concetto di "cattivo" non ha una sola definizione, ma ho fatto del mio meglio per rendere le cose il più chiare possibile. Spero che la mia modifica più recente aiuti a chiarire le cose.
Silverfish,

1
Il motivo per cui ritengo che la domanda abbia un valore diverso dalla mera terminologia (che cosa significa comunque, e c'è una definizione che possiamo estendere fino a includere la mediana?) È che può essere istruttivo vedere la mediana come una sola membro di una famiglia di generalizzazioni della media; L'esempio della mediana di Nick Cox come caso limitante della media tagliata è particolarmente bello - si lega perfettamente alla proprietà "robustezza" che ti piace. Nella famiglia dei mezzi tagliati, la media aritmetica "di strada" e la mediana giacciono alle estremità opposte con uno spettro tra loro.
Silverfish,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.