Diverse buone risposte lasciano ancora spazio per altri commenti.
Innanzitutto, nessuno ha obiettato all'idea che la mediana abbia lo scopo di eliminare i valori anomali, ma lo qualificherò. Il significato previsto è evidente, ma è facile che i dati reali siano più complicati. Al massimo, la mediana ha lo scopo di scartare o ignorare i valori anomali, ma anche questo non è garantito. Ad esempio, con un punteggio di 1 1 1 5 5 5 la mediana e la media concordano con 3, quindi tutto può sembrare buono. Ma un ulteriore 5 inclinerà la mediana a 5 e un ulteriore 1 inclinerà la mediana a 1. La media si sposterà di circa 0,286 in ciascun caso. Quindi la media è qui più resistente della mediana. L'esempio può essere considerato insolito, ma non è scandaloso. Il punto non è originale, naturalmente. Un posto in cui è realizzato è a Mosteller, F. e Tukey, JW 1977. Analisi e regressione dei dati. Lettura, MA: Addison-Wesley, pp. 34-35.
In secondo luogo, sono stati menzionati mezzi tagliati e l'idea merita una spinta maggiore. Media e mediana non devono necessariamente essere delle nette alternative, quindi l'analista deve scegliere (votare) l'una o l'altra. Puoi considerare tutti i possibili mezzi tagliati in base al taglio di un certo numero di valori in ciascuna coda . La tabella mostra come # il numero di valori inclusi nel calcolo della media:
+----------------------------+
| number # trimmed mean |
|----------------------------|
| 0 16 4.0625 |
| 1 14 4.214286 |
| 2 12 4.416667 |
| 3 10 4.6 |
| 4 8 4.75 |
| 5 6 4.833333 |
| 6 4 5 |
| 7 2 5 |
+----------------------------+
L'immagine principale qui è che puoi scegliere il tuo tasso di sconto (ignora così tanti valori in ogni coda come sospetto) come una sorta di assicurazione contro il rischio di essere fuori a causa di valori estremi. Quello che vedo è un gradiente abbastanza regolare tra media e mediana, che è previsto qui perché i possibili valori 1, 2, 3, 4, 5 sono tutti presenti nei dati. Si prevede un grande salto nella sequenza con un valore anomalo isolato.
Non vi è alcun obbligo con i mezzi tagliati di tagliare numeri uguali in ogni coda, ma non mi espanderò su questo.
In terzo luogo, l'esempio è delle recensioni di Amazon. Il contesto è sempre pertinente nel guidare il modo in cui si desidera riepilogare i dati . Nel caso delle recensioni di Amazon, la risposta migliore è leggere le recensioni! Poiché sia i voti alti che quelli bassi possono essere fondati su motivi spuri (implicitamente: l'autore di questo libro è mio amico) e / o irrilevante per la tua decisione (esplicitamente: il rivenditore mi ha trattato male), per me non è ovvio implicazioni su come sintetizzare tali dati, e in effetti mostrandoti la distribuzione Amazon è al massimo informativo.
Quarto, e il più elementare ma anche fondamentale di tutti, chi ti sta facendo scegliere? A volte media e mediana dovrebbero essere entrambe riportate (e, come detto, anche un grafico di distribuzione).