La media dovrebbe essere usata quando i dati sono distorti?


14

Spesso i testi statistici introduttivi applicati distinguono la media dalla mediana (spesso nel contesto delle statistiche descrittive e motivando la sintesi della tendenza centrale usando la media, la mediana e la modalità) spiegando che la media è sensibile ai valori anomali nei dati campione e / o a distribuzioni demografiche distorte, e questo è usato come giustificazione per un'affermazione secondo cui la mediana deve essere preferita quando i dati non sono simmetrici.

Per esempio:

La migliore misura della tendenza centrale per un dato insieme di dati dipende spesso dal modo in cui i valori sono distribuiti .... Quando i dati non sono simmetrici, la mediana è spesso la migliore misura della tendenza centrale. Poiché la media è sensibile alle osservazioni estreme, viene tirata nella direzione dei valori dei dati periferici e, di conseguenza, potrebbe finire per essere eccessivamente gonfiata o eccessivamente sgonfiata. "
—Pagano and Gauvreau, (2000) Principles of Biostatistics , 2nd ed. (P&G erano a portata di mano, BTW, non li distinguevano di per sé .)

Gli autori definiscono la "tendenza centrale" in questo modo: "La caratteristica più comunemente studiata di un insieme di dati è il suo centro, o il punto su cui le osservazioni tendono a raggrupparsi".

Questo mi sembra un modo meno che schietto di dire usare solo la mediana, punto , perché usare la media solo quando i dati / le distribuzioni sono simmetrici è la stessa cosa che dire usa la media solo quando è uguale alla mediana. Modifica: whuber sottolinea giustamente che sto combinando solide misure di tendenza centrale con la mediana. Quindi è importante tenere presente che sto discutendo l'inquadramento specifico della media aritmetica rispetto alla mediana nelle statistiche introduttive applicate (dove, a parte la modalità, altre misure di tendenza centrale non sono motivate).

Piuttosto che giudicare l'utilità della media in base a quanto si discosta dal comportamento della mediana, non dovremmo semplicemente comprenderle come due diverse misure di centralità? In altre parole, essere sensibili all'asimmetria è una caratteristica del mezzo. Si potrebbe anche validamente affermare che "bene la mediana non va bene perché è in gran parte insensibile all'asimmetria, quindi usala solo quando è uguale alla media".

(La modalità è abbastanza ragionevole non essere coinvolto in questa domanda.)


3
Personalmente, mi piace includere entrambe le misure, medie e mediane, che forniranno al lettore non solo alcune informazioni sulla tendenza centrale, ma anche un'idea di quanto siano distorti i dati.
bdeonovic,

1
Qualche contesto e chiarimenti migliorerebbero questa domanda. (1) In quale contesto questi (ipotetici) testi introduttivi affermano che la media deve essere preferita e per quale scopo? (2) Esattamente come sono questi testi "a giudicare l'utilità della media da quanto si discosta dal comportamento della mediana"? Potresti fornire un esempio o un preventivo in modo che possiamo capire meglio?
whuber

2
Ad un certo punto fraintendi: la mediana non è l'unica statistica che è robusta per alcune osservazioni estreme. Pertanto, la media viene incriminata sulla base di una caratteristica (spesso) indesiderabile e non dal confronto con la mediana. Ma ho anche un barlume della tua preoccupazione, e forse è correlata alla confusione implicita di asimmetria ed esistenza di valori anomali che si verificano in questa citazione. Ciò è purtroppo mal concepito, perché anche se a volte avere valori anomali implica asimmetria, il contrario non è spesso vero.
whuber

7
I lettori qui troveranno il seguente filo di interesse: se la media è così sensibile, perché usarla in primo luogo?
gung - Ripristina Monica

2
Alla luce della definizione data per "tendenza centrale", sembra chiaro perché la media non sarebbe una misura utile in presenza di inclinazioni o valori anomali. Che tu voglia davvero stimare questa nozione di tendenza centrale sembra essere un'altra cosa!
jsk,

Risposte:


16

Non sono d'accordo con il consiglio come regola generale. (Non è comune a tutti i libri.)

I problemi sono più sottili.

Se sei effettivamente interessato a dedurre la media della popolazione, la media del campione è almeno uno stimatore imparziale di essa e presenta una serie di altri vantaggi. In effetti, vedi il teorema di Gauss-Markov : è il migliore imparziale lineare.

Se le tue variabili sono fortemente distorte, il problema si presenta con "lineare" - in alcune situazioni, tutti gli stimatori lineari potrebbero essere cattivi, quindi il migliore potrebbe essere ancora poco attraente, quindi uno stimatore della media che non è lineare potrebbe essere migliore , ma richiederebbe sapere qualcosa (o anche parecchio) sulla distribuzione. Non abbiamo sempre quel lusso.

Se non sei necessariamente interessato all'inferenza relativa a una media della popolazione (" che cosa è un'età tipica? ", Dì o se c'è un passaggio di località più generale da una popolazione all'altra, che potrebbe essere formulato in termini di qualsiasi località, o anche di un test di una variabile che è stocasticamente più grande di un'altra), quindi fondere che in termini di popolazione la media non è necessaria o probabilmente controproducente (nell'ultimo caso).

Quindi penso che si pensi a:

  • quali sono le tue attuali domande? La popolazione è forse una buona cosa di cui chiedere in questa situazione?

  • qual è il modo migliore per rispondere alla domanda data la situazione (l'asimmetria in questo caso)? Usare sample significa l'approccio migliore per rispondere alle nostre domande di interesse?

Può darsi che tu abbia domande non direttamente sui mezzi della popolazione, ma tuttavia i mezzi di campionamento sono un buon modo per esaminare quelle domande ... o viceversa - la domanda potrebbe riguardare i mezzi di popolazione ma i mezzi di campionamento potrebbero non essere il modo migliore per rispondi a questa domanda.


14

Nella vita reale, dovremmo scegliere una misura di tendenza centrale basata su ciò che stiamo cercando di scoprire; e sì, a volte la modalità è la cosa giusta da usare. A volte è la media Winsorized o rifilata. A volte la media geometrica o armonica. A volte non esiste una buona misura della tendenza centrale.

I libri introduttivi sono scritti male, insegnano che ci sono regole da ricorrere al libro di cucina.

Prendi entrate. Questo è spesso molto distorto e talvolta presenta valori anomali; abbastanza sicuro, di solito vediamo "reddito mediano" riportato. Ma a volte i valori anomali e l'asimmetria sono importanti. Dipende dal contesto e richiede pensiero.

Ho scritto di più su questo


2
Peter, grazie mille per il link al tuo post. Vorrei che i testi introduttivi prendessero da 1 a 2 pagine di spazio necessarie per fornire una considerazione ponderata come hai fornito lì.
Alexis,

4
Non ne ho scritto uno, ma voglio inserire una piccola difesa dei testi introduttivi. Qualsiasi testo introduttivo che tentasse di fornire una visione completamente sfumata che i professionisti con esperienza avrebbero riconosciuto come tale sarebbe stato infiammato da quasi tutti i destinatari previsti; anzi non sarebbe nemmeno stato pubblicato.
Nick Cox,

5
Un commento sostanziale: quando i valori sono additivi in ​​modo tale che i totali abbiano (ad esempio) un senso fisico, la media è un sommario naturale indipendentemente dalla distribuzione dei singoli valori.
Nick Cox,

3
@NickCox Penso che i testi introduttivi possano fare molto meglio di loro. Per media contro media non è nemmeno un argomento matematico - è un argomento sostanziale. I testi introduttivi devono dire alla persona che li legge che non sono veramente qualificati per fare analisi dei dati.
Peter Flom - Ripristina Monica

2
@jsk. Oh va bene. Penso che debbano essere esplicitamente informati nelle statistiche perché molte persone sembrano pensare di essere pronti dopo un corso di analisi dei dati; infatti, in molti campi (psicologia, sociologia, medicina, ecc.) le persone dovrebbero fare analisi dei dati dopo solo 1, 2 o talvolta 3 corsi. Nei programmi di dottorato, ad esempio, si prevede che scriveranno tesi di laurea. Perché è più evidente in altri campi? Non sono sicuro.
Peter Flom - Ripristina Monica

6

Anche quando i dati sono distorti (ad esempio, i costi dell'assistenza sanitaria calcolati insieme a una sperimentazione clinica, in cui pochi pazienti hanno totalizzato il costo zero perché sono morti subito dopo l'iscrizione e pochi pazienti hanno accumulato tonnellate di costi a causa degli effetti collaterali di un determinato programma di assistenza sanitaria sotto inchiesta ), la media può essere preferita alla mediana per almeno un motivo pratico: la moltiplicazione del costo medio per il numero di pazienti offre ai decisori sanitari l'impatto sul bilancio della tecnologia sanitaria studiata.


Facendo eco al commento di Carlo: se sei interessato a un totale della popolazione (ad esempio, nel campionamento dell'audit), allora sei interessato alla media, al periodo. Se non fa differenza quanto sia inclinata o soggetta a anomalie la distribuzione, devi solo occupartene. Non puoi Winsorize, tagliare, altrimenti rimuovere valori anomali o trasformare il log. La stratificazione può essere di grande aiuto; nel caso di valori anomali estremi, questi dovrebbero essere fatti come strati a se stessi.
Peter Westfall,

3

Penso che ciò che manca alla domanda, così come sia le risposte finora, sia che la discussione della media rispetto alla mediana nei libri di statistica introduttiva si svolga generalmente all'inizio di un capitolo su come riassumere numericamente una distribuzione. A differenza delle statistiche inferenziali, si tratta generalmente di produrre statistiche descrittive che sarebbero un modo utile per trasmettere informazioni sulla distribuzione dei dati numericamente anziché graficamente. I contesti in cui ciò si presenta è la sezione delle statistiche descrittive di un report o di un articolo di giornale in cui generalmente non vi è spazio per riepiloghi grafici di tutte le variabili nel set di dati. Se la distribuzione è distorta, in questo contesto sembra ragionevole scegliere la mediana rispetto alla media. Se la distribuzione è simmetrica senza valori anomali,


1
Vale la pena il tuo punto sulle statistiche descrittive contro inferenziali. Ma stai effettivamente dicendo (per le statistiche descrittive) "usa la media solo quando è uguale alla mediana". Se la distribuzione è distorta, allora la mediana fa un cattivo lavoro nel rappresentare il concetto di pro capite , giusto? Quindi non è altrettanto valido assumere la posizione "usa la mediana solo quando è uguale alla media?" È altrettanto arbitrario e sembra distogliere l'attenzione dal significato sostanziale di queste misure (per le persone che le imparano).
Alexis,

1
L'obiettivo non è quello di rappresentare il concetto di pro capite? Dice chi? Perché presupporre che non sia questo l'obiettivo?
Alexis,

1
Non vedo maleducazione o "recitazione scioccata" proveniente dall'OP ... sto solo dicendo ...
Nick Stauner,

1
Non vedo che sia importante che tu stia facendo statistiche inferenziali o descrittive in questo caso. Se la misura descrittiva appropriata della tendenza centrale è la mediana, allora si dovrebbero trarre delle conclusioni sulla mediana; se la media, allora la media. Se nessuna misura descrittiva ha senso, allora nessuna misura inferenziale ha senso.
Peter Flom - Ripristina Monica

1
@PeterFlom Che dire nei casi in cui l'obiettivo finale non è inferenza? Concordo sul fatto che l'adeguatezza di una statistica descrittiva dipende interamente dalla ragione per la produzione della statistica. L'idea che sia possibile che "nessuna misura descrittiva abbia senso" sembra implicare che una statistica descrittiva non può essere intrinsecamente significativa. Direi che in quasi tutti i casi, la mediana ha senso come misura del centro della distribuzione per definizione. Che abbia o meno senso per altri scopi è un'altra domanda.
jsk,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.