Come stimare il terzo quartile di dati aggregati?

12

Esiste qualche trucco tecnico per determinare il terzo quartile se appartiene a un intervallo aperto che contiene più di un quarto della popolazione (quindi non posso chiudere l'intervallo e utilizzare la formula standard)?

modificare

Nel caso in cui ho frainteso qualcosa, fornirò un contesto più o meno completo. Ho i dati disposti in una tabella con due colonne e, diciamo, 6 righe. Ad ogni colonna corrisponde un intervallo (nella prima colonna) e una quantità di popolazione che "appartiene" a quell'intervallo. L'ultimo intervallo è aperto e comprende oltre il 25% della popolazione. Tutti gli intervalli (ad eccezione dell'ultimo) hanno lo stesso intervallo.

Dati di esempio (trasposti per la presentazione):

Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞)
Column 2:    51,    65,     68,     82,     78,   182

La prima colonna deve essere interpretata come un intervallo di livello di reddito. Il secondo deve essere interpretato come il numero di dipendenti il cui reddito appartiene all'intervallo.

La formula standard a cui sto pensando è . $\mathbb{Q}_{3}=x_{Q_{3}}+ \frac{\frac{3N}{4}- \sum_{i=1}^{k-1}n_{i}}{n_{Q_{3}}}r_{Q_{3}}$

distributions histogram descriptive-statistics

— un po
fonte

Un presupposto comune quando si cerca di stimare i quantili con dati aggregati è quello di assumere l'uniformità all'interno dei bin. Ma quando sai qualcosa sul modo in cui è probabile che i dati vengano distribuiti (come nel caso dei redditi, che sono giustamente distorti), ipotesi che riflettono che la conoscenza tenderà a essere migliore. Un'altra alternativa sarebbe quella di supporre che sia liscia, e quindi lisciare i dati (sia tramite KDE o una certa distribuzione adattata), ridistribuire i punti all'interno dei bin in base al modello [e possibilmente rivalutare (in modo un po 'simile a EM) l'adattamento, e ridistribuire nuovamente nei contenitori] quindi stimare i quantili da quello.

— Glen_b

16

È necessario adattare questi dati aggregati con un modello distributivo, poiché quello è l'unico modo per estrapolare nel quartile superiore.

Un modello

Per definizione, tale modello è dato da una funzione cadlag sale da a . La probabilità che assegna a qualsiasi intervallo è . Per adattarsi, è necessario posizionare una famiglia di possibili funzioni indicizzate da un parametro (vettoriale) , Supponendo che il campione sintetizzi una raccolta di persone scelte in modo casuale e indipendente da una popolazione descritta da una specifica (ma sconosciuta) $F$ $0$ $1$ $(a,b]$ $F(b)-F(a)$ $\theta$ $\{F_\theta\}$ $F_\theta$ , la probabilità del campione (o probabilità , ) è il prodotto delle singole probabilità. Nell'esempio sarebbe uguale $L$

L (θ) = (F_{θ} (8) - F_{θ} (6))^{51} (F_{θ} (10) - F_{θ} (8))^{65} \dots (F_{θ} (\infty) - F_{θ} (16))^{182}

$L(\theta) = (F_\theta(8) - F_\theta(6))^{51} (F_\theta(10) - F_\theta(8))^{65} \cdots (F_\theta(\infty) - F_\theta(16))^{182}$

perché persone hanno probabilità associate , hanno probabilità e così via. $51$ $F_\theta(8) - F_\theta(6)$ $65$ $F_\theta(10) - F_\theta(8)$

Adattamento del modello ai dati

La stima della verosimiglianza massima di è un valore che massimizza (o, equivalentemente, il logaritmo di ). $\theta$ $L$ $L$

Le distribuzioni di reddito sono spesso modellate da distribuzioni lognormali (vedere, ad esempio, http://gdrs.sourceforge.net/docs/PoleStar_TechNote_4.pdf ). Scrivendo , la famiglia delle distribuzioni lognormali è $\theta = (\mu,\sigma)$

F_{(μ, σ)} (x) = \frac{1}{\sqrt{2 π}} \int_{- \infty}^{(\log (x) - μ) / σ} \exp (- t^{2} / 2) d t .

$F_{(\mu, \sigma)}(x) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{(\log(x)-\mu)/\sigma} \exp(-t^2/2) dt.$

Per questa famiglia (e molti altri) è semplice ottimizzare numericamente. Ad esempio, scriveremmo una funzione per calcolare il e quindi ottimizzarlo, perché il massimo di coincide con il massimo di stesso e (di solito) è più semplice da calcolare e numericamente più stabile con cui lavorare: $L$ R $\log(L(\theta))$ $\log(L)$ $L$ $\log(L)$

logL <- function(thresh, pop, mu, sigma) {
  l <- function(x1, x2) ifelse(is.na(x2), 1, pnorm(log(x2), mean=mu, sd=sigma)) 
                        - pnorm(log(x1), mean=mu, sd=sigma)
  logl <- function(n, x1, x2)  n * log(l(x1, x2))
  sum(mapply(logl, pop, thresh, c(thresh[-1], NA)))
}

thresh <- c(6,8,10,12,14,16)
pop <- c(51,65,68,82,78,182)
fit <- optim(c(0,1), function(theta) -logL(thresh, pop, theta[1], theta[2]))

$\theta = (\mu,\sigma)=(2.620945, 0.379682)$ fit$par

Verifica dei presupposti del modello

$F$

predict <- function(a, b, mu, sigma, n) {
  n * ( ifelse(is.na(b), 1, pnorm(log(b), mean=mu, sd=sigma)) 
        - pnorm(log(a), mean=mu, sd=sigma) )

Viene applicato ai dati per ottenere le popolazioni di bin adattate o "previste":

pred <- mapply(function(a,b) predict(a,b,fit$par[1], fit$par[2], sum(pop)), 
               thresh, c(thresh[-1], NA))

Possiamo disegnare istogrammi dei dati e la previsione per confrontarli visivamente, mostrati nella prima riga di questi grafici:

Gli istogrammi

Per confrontarli, possiamo calcolare una statistica chi-quadrata. Questo di solito viene riferito a una distribuzione chi-quadrato per valutare la significatività :

chisq <- sum((pred-pop)^2 / pred)
df <- length(pop) - 2
pchisq(chisq, df, lower.tail=FALSE)

$0.0087$ $6-8$ $6$ $3$ $0.40$

Usare l'adattamento per stimare i quantili

$6$ $3$ $(\mu, \sigma)$ $(2.620334, 0.405454)$ $F$ $75^{\text{th}}$

exp(qnorm(.75, mean=fit$par[1], sd=fit$par[2]))

$18.06$ $6$ $3$ $17.76$

Queste procedure e questo codice possono essere applicati in generale. La teoria della massima verosimiglianza può essere ulteriormente sfruttata per calcolare un intervallo di confidenza attorno al terzo quartile, se questo è di interesse.

— whuber
fonte

Wow grazie! Devo ammettere che non mi aspettavo un macchinario così avanzato (almeno per me) da utilizzare per trovare una soluzione.

— atad

Il macchinario non deve essere avanzato o sofisticato, ma qualunque cosa tu faccia dovrebbe seguire le stesse linee generali di questo esempio: assumere qualcosa sulla distribuzione del reddito, usarlo per adattarlo a un modello matematico, verificare la ragionevolezza del modello e se è una misura ragionevole, usalo per calcolare il quartile. Lungo la strada, usa metodi grafici perché possono rivelare modelli interessanti. (Qui, l'interesse è che c'è un'apparente deviazione dalla lognormalità nella fascia a basso reddito: mi chiedo perché ciò accada e cosa potrebbe dire su questa popolazione.)

— whuber

+1, ottima risposta. Sembra che dovrò ancora imparare R.

— dav

8

Troppo a lungo per un commento:

la risposta di Whubers è buona come una qualsiasi, ma assume l'asimmetria giusta nel suo modello log-normale. Ciò può essere realistico per i redditi di una popolazione generale, ma potrebbe non essere per i redditi di un singolo datore di lavoro di un determinato grado.

$68$ $64$ $50$ $17.5$

$80$ $17.3$

$17$

— Henry
fonte

1

16

$16$