Nel mio lavoro, quando gli individui si riferiscono al valore "medio" di un set di dati, in genere si riferiscono alla media aritmetica (cioè "media" o "valore atteso"). Se fornissi la media geometrica , le persone probabilmente penserebbero che io sia sgarbato o non utile, poiché la definizione di "media" è nota in anticipo.
Sto cercando di determinare se esistono più definizioni della "mediana" di un set di dati. Ad esempio, una delle definizioni fornite da un collega per trovare la mediana di un set di dati con un numero pari di elementi sarebbe:
Algoritmo 'A'
- Dividi il numero di elementi per due, arrotondando per difetto.
- Tale valore è l'indice della mediana.
- vale a dire per il set seguente, la mediana sarebbe
5
. [4, 5, 6, 7]
Questo sembra avere un senso, sebbene l'aspetto arrotondato appaia un po 'arbitrario.
Algoritmo 'B'
In ogni caso, un altro collega ha proposto un algoritmo separato, che era in un suo manuale di statistiche (è necessario ottenere il nome e l'autore):
- Dividi il numero di elementi per 2 e conserva una copia degli interi arrotondati per eccesso e per difetto. Denominali
n_lo
en_hi
. - Prendi la media aritmetica degli elementi in
n_lo
en_hi
. - vale a dire per il set seguente, la mediana sarebbe
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Questo sembra sbagliato, dato che il valore mediano, 5.5
in questo caso, non è in realtà nel set di dati originale. Quando abbiamo sostituito l'algoritmo 'A' con 'B' in un codice di test, si è rotto in modo orribile (come ci aspettavamo).
Domanda
Esiste un "nome" formale per questi due approcci al calcolo della mediana di un set di dati? vale a dire "mediana minore dei due" contro "mediana media-elementi-medi-e-marca-nuovi"?