Media


11

Sto lavorando su dati altamente distorti, quindi sto usando la mediana anziché la media per sintetizzare la tendenza centrale. Mi piacerebbe avere una misura della dispersione Mentre vedo spesso persone che riportano media deviazione standard± o ± quartili mediana± per sintetizzare la tendenza centrale, è giusto segnalare la dispersione assoluta mediana mediana (MAD)± ? Ci sono potenziali problemi con questo approccio?

Troverei questo approccio più compatto e intuitivo rispetto alla segnalazione di quartili inferiori e superiori, soprattutto in tabelle di grandi dimensioni piene di cifre.


3
Penso che media, quartili inferiori e superiori descrivano congiuntamente i dati meglio. Puoi trovare alcune altre statistiche descrittive qui .

1
Voglio essere il più conciso possibile: la mediana + 2 quartili va bene?
Mulone,

4
MAD è una statistica eccellente per esprimere la dispersione di una serie di dati: è più resistente agli outlier anche dell'intervallo interquartile. Ma potresti voler pensare a cosa significherebbe realmente la media MAD e come dovrebbe interpretarla il tuo pubblico. Non gode delle stesse proprietà asintotiche o di disuguaglianza di Chebeyshev della media ± DS. Questo, forse, è il motivo per cui tali espressioni sono usate raramente, se non mai. ±±
whuber

1
Ho sempre pensato che MAD rappresentasse la deviazione assoluta media dell'analogo a mse, che è un errore quadratico medio. è la media delle deviazioni assolute dalla media non dalla mediana. Ho ragione o sto diventando MAD?
Michael R. Chernick,

2
l'immagine è di mille parole, se possibile mostrare l'istogramma è molto potente.
bdeonovic,

Risposte:


7

±

±

I quartili / quantili danno un'idea molto migliore della distribuzione al costo di un numero aggiuntivo - (4.9,5.0.1000000.0). Dubito che sia totalmente una coincidenza che l'asimmetria sia il terzo momento e che sembri aver bisogno di tre numeri / dimensioni per visualizzare intuitivamente una distribuzione distorta.

Detto questo, non c'è nulla di sbagliato in sé - sto solo discutendo intuizioni e leggibilità qui. Se lo stai usando per te o la tua squadra, impazzisci. Ma penso che confonderebbe un vasto pubblico.


2
(+1) Vorrei aggiungere che la definizione di asimmetria in termini di terzo momento non è la più accettata al giorno d'oggi perché può essere applicata solo su distribuzioni con code leggere. Le definizioni più moderne di asimmetria si basano su quantili, alcuni di questi possono essere trovati qui .

1
@amoeba è? La pagina di Wikipedia per MAD la definisce come Mediana (| Xi - Mediana (X) |), che è 0.1 con i dati forniti.
Upper_Case

@Upper_Case Grazie. Ho sbagliato (dimenticato circa 5-5 = 0 termine). Eliminerò il mio commento sopra per non confondere i futuri lettori!
ameba dice Ripristina Monica il

4

L'uso del MAD equivale a supporre che la distribuzione sottostante sia simmetrica (le deviazioni sopra la mediana e sotto la mediana sono considerate ugualmente). Se i tuoi dati sono distorti, questo è chiaramente sbagliato: ti porterà a sopravvalutare la vera variabilità dei tuoi dati.

Fortunatamente, puoi scegliere una delle diverse alternative al matto che sono ugualmente robuste, quasi altrettanto facili da calcolare e che non assumono simmetria.

Dai un'occhiata a Rousseeuw e Croux 1992 . Questi concetti sono ben spiegati qui e implementati qui . Questi due stimatori sono membri della cosiddetta classe di statistiche U, per la quale esiste una teoria ben sviluppata.


1

"In questo articolo viene studiato un indice di asimmetria più accurato. In particolare, viene proposto l'uso della varianza destra e sinistra e viene introdotto un indice di asimmetria basato su di essi. Numerosi esempi dimostrano la sua utilità. La questione di valutare più accuratamente la dispersione dei dati sulla media emerge in tutte le distribuzioni di probabilità non simmetriche. Quando la distribuzione della popolazione è non simmetrica, la media e la varianza (o deviazione standard) di un insieme di dati non forniscono un'idea precisa della distribuzione dei dati, soprattutto forma e simmetria. Si sostiene che la media, la varianza sinistra proposta (o la deviazione standard sinistra) e la varianza destra (o deviazione standard destra) descrivono l'insieme di dati in modo più accurato. "

collegamento


3
Hai citato l'abstract di un documento e fornito qualcosa che assomiglia a un URL (mi sono preso la libertà di correggere il collegamento). Questo non è proprio il tipo di risposte che stiamo cercando qui; Ti incoraggio a modificare la tua risposta e a provare ad aggiungere alcuni tuoi commenti sul perché questo link aiuta a rispondere alla domanda. La risposta sarebbe molto migliorata se spiegassi come questo indice di asimmetria sia correlato alla tendenza centrale media e MAD.
Martedì
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.