Perché l'età media è una statistica migliore dell'età media?


41

testo alternativo

testo alternativo

Chiaramente la mediana sembra essere la statistica di scelta quando si tratta di età.

Non sono in grado di spiegarmi perché la media aritmetica sarebbe una statistica peggiore. Perché è così?

Originariamente pubblicato qui perché non sapevo che questo sito esistesse.


4
Sembra che tu abbia già avuto una risposta ragionevole sull'altro sito?
Shane,

1
@Shane: Ma forse siti diversi hanno il potenziale per ottenere risposte diverse da diversi punti di vista?
whuber

Risposte:


42

Le statistiche non forniscono una buona risposta a questa domanda, secondo me. Una media può essere rilevante negli studi sulla mortalità, ad esempio, ma l'età non è così facile da misurare come si potrebbe pensare. Le persone anziane, le persone analfabete e le persone in alcuni paesi del terzo mondo tendono ad arrotondare la loro età a un multiplo di 5 o 10, per esempio.

La mediana è più resistente a tali errori rispetto alla media. Inoltre, le età medie sono in genere dai 20 ai 40 anni, ma le persone possono vivere fino a 100 e più (una percentuale crescente e notevole della popolazione dei paesi moderni ora vive oltre i 100). Le persone di tale età hanno un'influenza media da 1,5 a 4 volte rispetto alla media rispetto ai giovani. Pertanto, la mediana è un po 'più aggiornata delle statistiche relative alla distribuzione per età di un paese ed è un po' più indipendente dai tassi di mortalità e dall'aspettativa di vita rispetto alla media.

Infine, la mediana ci fornisce un quadro leggermente migliore di come appare la distribuzione dell'età stessa: quando vedi una mediana di 35 anni, ad esempio, sai che metà della popolazione ha più di 35 anni e puoi dedurre alcune cose sui tassi di natalità, età dei genitori e così via; ma se la media è 35, non si può dire così tanto, perché quel 35 potrebbe essere influenzato da un grande rigonfiamento della popolazione all'età di 70 anni, per esempio, o forse da un divario demografico in una fascia d'età a causa di una vecchia guerra o epidemia.

Pertanto, per ragioni demografiche, non statistiche, una mediana appare più degna del ruolo di un valore omnibus per riassumere le età di popolazioni relativamente grandi di persone.


1
Penso che volevi dire "La mediana è più resistente a tali errori rispetto alla media". Tuttavia, sono d'accordo con i tuoi commenti e credo che il censimento degli Stati Uniti in genere riferisca la mediana per molte categorie nei rapporti ufficiali (non solo l'età) per praticamente tutti gli stessi motivi. Il reddito è forse anche un esempio migliore dell'età per illustrare tali punti.
Andy W,

Hai sostituito un fatto - la media è sensibile a valori anomali / distribuzioni distorte - con una dichiarazione di valore sulla preferenza per la mediana rispetto alla media. In effetti, hai sostenuto che la media non è da preferire perché non è la mediana (proprio come quelli che dicono che si dovrebbe usare la media solo su distribuzioni simmetriche, cioè quando media e mediana sono uguali).
Alexis,

1
@Alexis Non seguo le tue critiche. Potresti elaborare? Dopotutto, questa risposta fornisce molto più di "un dato di fatto": ne contiene parecchi, insieme a un'analisi delle loro implicazioni. E in particolare a quale "dichiarazione di valore" fai riferimento?
whuber

La mia preoccupazione è che le caratteristiche fattuali della media e della mediana (ad esempio la prima sia sensibile ai valori anomali, vale a dire "Le persone di tale età hanno un'influenza sulla media da 1,5 a 4 volte maggiore rispetto alla mediana rispetto ai giovani.") tradotto in valori sul loro valore, vale a dire "la mediana ci dà un quadro leggermente migliore di come appare la distribuzione dell'età stessa". Il primo è un dato di fatto, il secondo una valutazione di tale fatto. La mia preoccupazione è con il passaggio tra i due. Altro: stats.stackexchange.com/questions/96371/…
Alexis,

1
@Alexis Si prega di tenere presente che questa domanda non riguarda l'uso della media o della mediana in generale, ma nelle loro utilità nella valutazione delle distribuzioni per età. Si noti che all'inizio la mia risposta riconosce che non esiste una panacea: che la media è utile e pertinente per scopi specifici. Non credo di aver commesso il peccato di cui mi accusate, che è la vaga applicazione del "migliore": ho accuratamente stabilito come la mediana e la media differiscano in questo contesto . Mi sembra che tu abbia un problema a discutere sui mezzi rispetto ai mediani, ma questo non è il posto giusto per farlo.
whuber

16

John ti ha dato una buona risposta sul sito gemello.

Un aspetto che non ha menzionato esplicitamente è la robustezza: la mediana come misura della posizione centrale fa meglio della media in quanto ha un punto di rottura più alto (del 50%) mentre la media ha uno molto basso di 0 (vedi Wikipedia per i dettagli ).

Intuitivamente, significa che singole cattive osservazioni non distorcono la mediana mentre lo fanno per la media.


9
La ripartizione non è un problema per una statistica descrittiva di un'intera popolazione.
whuber

12

Ecco la mia risposta prima pubblicata su math.stackexchange:

La mediana è ciò che molte persone hanno in mente quando dicono "cattiva". È più facile interpretare la mediana: metà della popolazione è al di sopra di questa età e metà è al di sotto. La media è un po 'più sottile.

Le persone cercano la simmetria e talvolta impongono la simmetria quando non c'è. La distribuzione dell'età in una popolazione è tutt'altro che simmetrica, quindi la media potrebbe essere fuorviante. Le distribuzioni di età sono qualcosa di simile a una piramide. Molti bambini, non molti anziani. (O almeno così è in una sorta di stato stazionario. Negli Stati Uniti, la generazione di baby boom post-Seconda Guerra Mondiale ha distorto questa distribuzione mentre invecchiano. Alcune persone hanno definito questo "squadrare la piramide" perché i boomers hanno fatto il cima della piramide più larga di quanto non sia stata in passato.)

Con una distribuzione asimmetrica, potrebbe essere meglio riferire la mediana perché è una statistica simmetrica. La mediana è simmetrica anche se la distribuzione del campionamento non lo è.


In che senso la mediana è una statistica "simmetrica"? Non è certo il caso che le distribuzioni tendano a essere distribuite simmetricamente sui loro mediani (né sui loro mezzi). Se intendi semplicemente ciò che hai scritto in un altro commento che la "mediana divide la popolazione a metà" (che definisce la mediana), il tuo argomento sembra circolare: la mediana è buona perché la mediana è la mediana!
whuber

7

Perché un'ascia è meglio di un'ascia di guerra?

È simile alla tua domanda. Significano e fanno cose diverse. Se si parla di mediani, la storia che stanno cercando di trasmettere, il modello che stanno cercando di applicare ai dati, è diverso da quello con i mezzi.


4

Per un esempio concreto, considerare l'età media per il Congo (RDC) e il Giappone. Uno è devastato dalla guerra civile, l'altro è ben sviluppato con una popolazione che invecchia. La media non è terribilmente interessante per un confronto tra mele e mele. D'altra parte, la mediana può essere istruttiva come misura della tendenza centrale poiché per definizione abbiamo metà sopra, metà sotto. L'articolo di Wikipedia sulla piramide della popolazione potrebbe essere illuminante (vedi le sezioni sul rigonfiamento dei giovani, l'invecchiamento della popolazione).


3

I repository di dati di sanità pubblica negli Stati Uniti si stanno spostando verso un AGE in formato anni con incrementi di cinque anni a causa dell'impatto delle normative HIPAA relative all'accecamento e al mascheramento intenzionali dei dati per motivi di privacy personale.

Data questa sfida a ciò che era stato in passato (prima dell'HIPAA) un elemento di misura di livello di misura abbastanza scalare basato sulla differenza tra data di nascita e data di morte, potrebbe essere necessario riconsiderare AGE come variabile di scala che può essere parametricamente descritto nei set di dati di sanità pubblica, a favore di modelli che descrivono l'ERA in modo non parametrico, come un livello di misura ordinale. So che questo può sembrare "esagerato" per molte fazioni all'interno della comunità informatica biomedica, ma questa idea può avere qualche merito in termini di "interpretazione" come descritto nei commenti sopra.

Che dire di tutto il potere analitico disponibile per gli approcci non parametrici? Sì, è vero che ognuno di noi quasi universalmente tenterà di applicare le tecniche GLM (modello lineare generale) a una variabile che si presenta a noi nelle distribuzioni che si comportano come AGE.

Allo stesso tempo, è necessario prendere in considerazione la forma di tale distribuzione e il modo in cui tale forma viene determinata da effetti di interazione a più dimensioni su centroidi multidimensionali e centroidi di sottogruppo presenti nella distribuzione. Cosa fare con questi set di dati molto complessi?

Quando un elemento di dati non riesce a soddisfare i "presupposti del modello", eseguiamo una scansione progressiva attraverso (ho detto attraverso, non verso il basso; dovremmo essere datori di lavoro del metodo pari opportunità, ogni strumento viene dalla fabbrica con la forma segue le regole di funzione) l'elenco di altri possibili modelli per trovare quelli che "non falliscono" i test delle ipotesi.

Nel presente formato nei set di dati sulla salute pubblica, abbiamo davvero bisogno (come comunità di visualizzazione dei dati) di elaborare un modello più standard per la gestione dell'età con incrementi di cinque anni (5YI). Il mio voto per la visualizzazione dei dati di AGE (dato il nuovo formato 5YI) è di usare istogrammi e grafici a scatole e baffi. Sì, questo significa la mediana. (Nessun gioco di parole!)

A volte un'immagine vale davvero più di mille parole e un riassunto è un riassunto di mille parole. La trama della scatola e del baffo mostra la "forma" della distribuzione come una rappresentazione simbolica significativa dell'istogramma a quasi un livello iconico di risoluzione. Confrontando le distribuzioni degli incrementi di età di cinque anni mostrando i riquadri "side by side" e i diagrammi di baffi in cui è possibile confrontare istantaneamente modelli dal 75 ° al 50 ° (mediano) con il 25 ° inferiore di ntiles, si creerebbe un elegante "standard universale" per confrontare l'ETÀ attraverso il mondo. Per quelli di noi che continuano a provare il brivido della rappresentazione dei dati attraverso la meccanica testuale della visualizzazione tabulare, il diagramma "gambo e foglia" può anche essere utile quando impiegato come elemento grafico visivo animato in una "scintilla"

L'età è diventata maggiorenne. Deve essere esplorato ulteriormente con i più potenti algoritmi computazionali che sono ora disponibili.


1
Questo è un post ben scritto, ma non sembra avere alcun collegamento con la domanda originale.
Andy W,

Penso che indirettamente ma indirizzi in modo appropriato l'intento apparente della domanda, @Andy. L'eventuale difetto risiede nella domanda stessa, che è ambigua perché non specifica il senso in cui una media potrebbe essere "peggiore" di una mediana. Una buona risposta quindi deve esplorare questo e considerare lo scopo di riassumere una distribuzione per età con una sola statistica. Qui, questo porta naturalmente a una discussione su cosa potrebbe significare "un'età" e su come confrontare in modo appropriato le distribuzioni dell'età.
whuber

3

Non penso che ci sia una buona ragione descrittiva per scegliere la media rispetto alla media per le distribuzioni per età. C'è uno di praticità quando si confrontano i dati riportati.

Molti paesi riportano la loro popolazione a intervalli di 5 anni con la band più aperta. Ciò causa alcune difficoltà nel calcolare la media dagli intervalli, in particolare per l'intervallo più giovane (influenzato dai tassi di mortalità infantile), l'intervallo superiore (qual è la media di un "intervallo" 80+?) E gli intervalli superiori vicini ( la media di ciascun intervallo è generalmente inferiore alla metà).

È molto più facile stimare la mediana interpolando all'interno dell'intervallo mediano, spesso approssimando ipotizzando una distribuzione dell'età piatta o trapezoidale in quell'intervallo (i tassi di mortalità in molti paesi sono relativamente bassi intorno all'età mediana, rendendo questa approssimazione più ragionevole di quella è per giovani o anziani).


3

Per dare una risposta utile alla domanda originale è necessario conoscere la domanda alla base della domanda. In altre parole, "Perché vuoi una sorta di statistica riassuntiva che paragona la distribuzione per età dei diversi paesi?" La mediana potrebbe essere la più utile per alcune domande. La media potrebbe essere la più utile per gli altri. E ci sono probabilmente delle domande in cui "la percentuale sopra (o sotto) una certa età" sarebbe la statistica più utile.


2

Stai ricevendo buone risposte qui, ma lasciami solo aggiungere i miei 2 centesimi. Lavoro in farmacometria, che si occupa di volume del sangue, tasso di eliminazione, livello base di effetto del farmaco, massimo effetto del farmaco e parametri del genere.

Facciamo una distinzione tra variabili che possono assumere qualsiasi valore più o meno, rispetto a valori che possono essere solo positivi. Un esempio di una variabile che può assumere qualsiasi valore, più o meno, sarebbe l'effetto del farmaco, che potrebbe essere positivo, zero o negativo. Un esempio di una variabile che può essere realisticamente positivo solo è il volume di sangue o il tasso di eliminazione del farmaco.

Modelliamo queste cose con distribuzioni che sono in genere normali o lognormali, normali per quelli valutati e lognormali per quelli unici positivi. Un numero lognormale è il numero E portato alla potenza di un numero normalmente distribuito, ed è per questo che può essere solo positivo.

Per una variabile normalmente distribuita, la mediana, la media e la modalità hanno lo stesso numero, quindi non importa quale usi. Tuttavia, per una variabile distribuita in modo lognormale, la media è maggiore sia della mediana che della modalità, quindi non è molto utile. In effetti, la mediana è dove la normale sottostante ha la sua media, quindi è una misura molto più attraente.

Poiché l'età (presumibilmente) non può mai essere negativa, una distribuzione lognormale è probabilmente una descrizione migliore di essa rispetto al normale, quindi la mediana (E alla media della normale sottostante) è più utile.


5
La distribuzione dell'età non è certamente normale.
Rob Hyndman,

1
Non credo che si possa dedurre che l'età è normalmente distribuita dal fatto che è sempre positiva. Anche le distribuzioni gamma e Weibull sono sempre positive, quindi perché non scegliere quelle?
nico,

@Rob: @nico: sono sicuro che tu abbia ragione. È stata una cattiva scelta di esempio. Tipicamente modelliamo parametri farmacometrici come volume e clearance.
Mike Dunlavey,

2

Mi è stato insegnato che la mediana dovrebbe essere usata con range e media con deviazione standard. Quando parliamo di età, penso che la gamma sia un modo più rilevante per esprimere la diffusione e più facile da capire per la maggior parte. Ad esempio, in una popolazione in studio, l'età media era di 53 (DS 5.4) o l'età media era di 48 (intervallo 23-77). Per questo motivo, preferirei usare la mediana piuttosto che la media. Ma sarei molto interessato a ciò che direbbe uno statistico o un professionista delle statistiche sull'uso della media con il range? Lo vedo abbastanza negli articoli scientifici.


Benvenuto in CV, Susanne. Se lo hai pubblicato nel tentativo di ottenere risposte, ti preghiamo di eliminarlo e ripubblicarlo come nuova domanda. Una guida su come utilizzare questo sito è disponibile nel nostro centro assistenza .
whuber

1

La risposta di John su math.stackexchange può essere vista come la seguente:

Quando si ha una distribuzione distorta, la mediana potrebbe essere una statistica riassuntiva migliore della media.

Si noti che quando dice che ci sono più bambini che adulti, in sostanza sta suggerendo che la distribuzione per età è una distribuzione distorta.


In realtà penso che al giorno d'oggi l'inclinazione in molti paesi sia più rivolta agli anziani, non ai bambini.
JM non è uno statistico l'

Forse è distorto dall'altra parte, ma il punto generale vale. Per le distribuzioni distorte una mediana può avere più senso della media.

Ho appena aggiornato la mia risposta su math.stackexchange per enfatizzare proprio quel punto. Le persone cercano la simmetria e possono imporre erroneamente la simmetria quando non è lì. Quando segnali la mediana, dai una risposta simmetrica - la mediana divide la popolazione a metà - anche se la distribuzione non è simmetrica.
John D. Cook,

Questa risposta mi sembra sempre in qualche modo furtiva: quando le distribuzioni non sono distorte (cioè sono simmetriche), la media è uguale alla mediana, quindi dire che la mediana è "migliore" quando la distribuzione è inclinata è un modo backdoor di dire "usa solo la mediana ".
Alexis,

1

Spero che l'età media sia influenzata dai valori anomali nel set di dati, mentre ciò non è il caso di un'età media. Facciamo un esempio di un set di dati di pazienti vaccinati: 1,2,3,4,4,5,6,6,6,78 anni la media sarebbe: 11,5 e l'età media di questi pazienti è 4,5. questa età media è stata influenzata dai 78 anomali. La mediana è la migliore quando si tratta di insiemi di dati della distribuzione distorta.


Vedi la mia risposta a User28.
Alexis,

0

Certamente nel caso dell'analisi demografica, penso che sia la media che la mediana sarebbero preziose, specialmente in combinazione tra loro, se stai cercando valori anomali o aree di crescita che potrebbero essere etichettati erroneamente dalla sola mediana. Nelle comunità con una grande comunità di pensionati o in un'area con un'esplosione del tasso di natalità, la mediana da sola potrebbe non darti il ​​quadro completo, ed è qui che la media, in confronto, può essere molto utile.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.