Quando dovremmo usare i tantili e il mediale, piuttosto che i quantili e la mediana?


14

Non riesco a trovare definizioni per tantile o mediale su Wikipedia o Wolfram Mathworld, ma la seguente spiegazione è data in Bílková, D. e Mala, I. (2012), " Applicazione del metodo L-moment quando si modella la distribuzione del reddito nella Repubblica ceca ", Austrian Journal of Statistics , 41 (2), 125–132.

La mediale è il valore di un 50% (campione) tantile proprio come la mediana del campione è uguale al valore di un quantile del 50% campione. I tantili campione e i quantili campione si basano su un campione ordinato. Innanzitutto, vengono valutate le somme cumulative di osservazioni nel campione ordinato. Quindi, per una data percentuale p , 0<p<100 , un p% tantile è definito come il valore della variabile analizzata che divide tutte le osservazioni nel campione ordinato in due parti: la somma delle osservazioni più piccole o uguali è p%della somma totale delle osservazioni e la somma delle osservazioni maggiori rappresenta il residuo (100p)% di questa somma.

Quando ha senso usarli come misure di localizzazione, piuttosto che come mediana più convenzionale o altri quantili? Una possibile situazione, i redditi delle famiglie, è riportata in quel documento:

Si può derivare da questa definizione che il mediale può essere usato come una ragionevole caratteristica del livello di reddito, poiché le famiglie con un reddito inferiore o uguale al mediale ricevono la metà del reddito totale nel campione, quelle con il reddito più alto rispetto alla mediale che riceve l'altra metà.

In questo caso, si è riscontrato che il reddito familiare medio era 117.497 CZK (ovvero metà delle famiglie ha guadagnato più di questo e metà ha guadagnato sopra), rispetto a un reddito familiare medio di CZK 133.930 (le famiglie con un reddito superiore a questa cifra ricevono la metà di reddito totale). Si noti che questo confronto non riflette necessariamente l'asimmetria dei redditi delle famiglie, o anche la sua non uniformità: anche se i redditi delle famiglie fossero distribuiti uniformemente, la mediale rimarrebbe comunque al di sopra della mediana. Per quanto ho capito la definizione, la mediale sarebbe uguale alla mediana solo se tutte le famiglie avessero ricevuto lo stesso reddito.

Quindi c'è qualche motivo particolare per preferire la mediale in questo caso, o almeno per usarla come misura aggiuntiva? Cosa ci dice esattamente il confronto tra mediana e mediale? Non sembra che la mediale sia direttamente paragonabile ad altre misure di tendenza centrale per i motivi che ho appena notato. Ci sono altre situazioni in cui mediale / tantile sono ampiamente utilizzati o visti come particolarmente istruttivi? Sarebbe molto gradito esempi pratici di come vengono utilizzati, con documenti di ricerca di esempio, e un'idea intuitiva del contesto più ampio in cui potrebbero rivelarsi utili sarebbe ancora migliore.

Deve richiedere che i totali e i subtotali siano significativi - qualcosa che sembra rilevante con il denaro e come viene distribuita la "torta", ma anche l'atto di addizione è significativo solo per determinate quantità. Per intense piuttosto che estese , come densità o temperatura, qualsiasi tipo di sommatoria non sarebbe fisicamente significativa. Mi sembra che una proprietà estesa sia necessaria ma non sufficiente perché i tantili possano essere utili, dal momento che posso immaginare un analista marittimo interessato a quale peso del carico trasportato è il limite in modo che il 50% di tutto il carico (in peso) sia trasportato con un peso di quel peso o superiore, ma non riesco a immaginare un ecologo interessato a quale lunghezza di tritone sia tale che il 50% della lunghezza totale di tutti i tritoni sia contribuito da tritoni di quella lunghezza o più.


3
@NickCox Per quanto ne capisco, la mediana fornisce un valore di soglia in cui approssimativamente parlando (sto completamente ignorando il problema dei legami), metà delle famiglie riceve più della soglia e metà delle famiglie ne riceve meno. La mediale dà un taglio diverso, in modo tale che il reddito totale delle famiglie che ricevono più del taglio costituisce il 50% di tutto il reddito, mentre il reddito totale delle famiglie che ricevono meno del taglio costituisce il 50% di tutto il reddito.
Silverfish,

2
Un consiglio: ne sono diventato curioso curioso dopo un commento di @ttnphns su una mia precedente domanda ; i mezzi (aritmetici, geometrici, armonici, motorizzati, esponenziali, combinatori, ecc.) sono "medie analitiche". Mediana, quantili, tantili sono "medie posizionali".
Silverfish,

4
Grazie; Ho letto male e apprezzo la correzione. Riformulerei da "somma di osservazioni" a "somma di valori", poiché "somma di osservazioni" è troppo vicino al "numero di osservazioni" per me. O forse sto cercando una scusa ... Dovrebbe esserci un collegamento con le curve di Lorenz. La misura sembra utile solo se la variabile in questione è teoricamente additiva o estesa. Sir David Cox sottolinea spesso l'importanza di estendere le variabili. Pertanto ha senso considerare in modo sostanziale il reddito totale, le precipitazioni totali, ma non il reddito totale dei tronchi o la temperatura totale.
Nick Cox,

2
@NickCox Penso che l'estensibilità sia un punto eccellente (e la tua riformulazione suggerita sarebbe stata anche un miglioramento secondo me), anche se mi sembra che una proprietà estesa sia necessaria ma non sufficiente perché i tantili possano essere utili. Sembra plausibile che potremmo essere interessati, ad esempio, a quale peso del carico trasportato è il limite in modo tale che il 50% di tutto il carico (in peso) sia trasportato in carichi di quel peso o superiore; ma non posso immaginare di essere interessato a quale lunghezza di tritone sia tale che il 50% della lunghezza totale di tutti i tritoni sia contribuito da tritoni di quella lunghezza o più.
Silverfish,

1
Concordo in pratica, ma non credo che il principio sia interessato. La risposta a "Ma ciò non sarebbe interessante o utile" non deve sempre essere una dimostrazione di principio matematico o statistico; c'è anche spazio per "Non farlo allora!".
Nick Cox,

Risposte:


3

Questo è davvero un commento, ma troppo lungo per un commento. Sta cercando di chiarire la definizione di "tantile" (nel caso p=0.5 che è analogo alla mediana). Sia X una variabile casuale (per semplicità) assolutamente continua con funzione di densità f(x) . Partiamo dal presupposto che l'aspettativa μ=EX esiste, ovvero l'integrale μ=xf(x)dx converge. Definire, analogamente alla funzione di distribuzione cumulativa, una "funzione di aspettativa cumulativa" (non ho mai visto un tale concetto, ha un nome ufficiale?) Con

G(t)=txf(x)dx
Quindi il "tantile" è la soluzionet dell'equazioneG(t)=μ/2 .

Questa interpretazione è corretta? È quello che era previsto?

Per tornare alla domanda iniziale, nel contesto di una distribuzione del reddito, il valore è il valore del reddito in modo tale che la metà del reddito totale è per le persone con quel reddito superiore e la metà del reddito totale è per le persone con quel reddito inferiore.

EDIT

Queste quantità (funzione G(t) sopra) sono correlate a varie misure di rischio utilizzate in alcune pubblicazioni finanziarie, come "deficit previsto".

Dai un'occhiata al documento AJ Ostaszewski e MB Gietzmann: "Creazione di valore con l'opzione di divulgazione di Dye: protezione ottimale del rischio con una strategia di divulgazione dalla coda superiore" (maggio 2006), in particolare intorno a pagina 15, dove definiscono qualcosa che chiamano "Hemi- significa "che è correlato a G(t) sopra, anche" deficit atteso rispetto a t e noto anche come $ primo momento parziale inferiore ". Sarebbe interessante esaminare queste connessioni ...

Un altro termine usato per questa idea è "aspettativa parziale". Vedi ad esempio /math/1080530/the-partial-expectation-mathbbex-xk-for-an-alpha-stable-distributed-r e usa google!

X>0

Fk(x)=1EXk0xtkf(t)dt
kG(t)=μF1(t)F1FF0
{(u,L(u))}={(u,v):u=F(x),v=F1(x);x0}


1
Grazie per l'aggiunta - dovrò leggere un po 'dall'aspetto!
Silverfish
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.