Modello per la stima della densità di popolazione

Un database di (popolazione, area, forma) può essere utilizzato per mappare la densità di popolazione assegnando un valore costante di popolazione / area a ciascuna forma (che è un poligono come un blocco censimento, tratto, contea, stato, qualunque cosa). Le popolazioni di solito non sono distribuite uniformemente nei loro poligoni, tuttavia. La mappatura dasimetrica è il processo di perfezionamento di queste stime di densità mediante dati ausiliari. È un problema importante nelle scienze sociali come indica questa recente recensione .

Supponiamo quindi di avere a disposizione una mappa ausiliaria della copertura del suolo (o di qualsiasi altro fattore discreto). Nel caso più semplice possiamo usare aree ovviamente inabitabili come i corpi idrici per delineare dove non c'è la popolazione e, di conseguenza, assegnare tutta la popolazione alle aree rimanenti. Più in generale, ogni unità di censimento $j$ è scolpita in $k$ porzioni aventi aree di superficie $x_{ji}$ , $i = 1, 2, \ldots, k$ . Il nostro set di dati viene quindi aumentato in un elenco di tuple

(y_{j}, x_{j 1}, x_{j 2}, \dots, x_{j k})

$(y_{j}, x_{j1}, x_{j2}, \ldots, x_{jk})$

dove $y_{j}$ è la popolazione (assunto misurata senza errore) nell'unità $j$ e - anche se questo non è rigorosamente il caso - possiamo supporre ogni $x_{ji}$ è anche esattamente misurato. In questi termini, l'obiettivo è dividere ogni $y_{j}$ in una somma

y_{j} = z_{j 1} + z_{j 2} + \dots + z_{j k}

$y_j = z_{j1} + z_{j2} + \cdots + z_{jk}$

dove ogni e stimano la popolazione all'interno dell'unità residente nella classe di copertura del suolo . Le stime devono essere imparziali. Questa partizione raffina la mappa densità di popolazione assegnando la densità all'intersezione della censimento poligono e l' $z_{ji} \ge 0$ $z_{ji}$ $j$ $i$ $z_{ji}/x_{ji}$ $j^{\text{th}}$ $i^{\text{th}}$ classe di copertura del suolo.

Questo problema differisce dalle impostazioni di regressione standard in modi salienti:

Il partizionamento di ogni $y_{j}$ deve essere esatto.
I componenti di ogni partizione devono essere non negativi.
Non c'è (presumibilmente) alcun errore in nessuno dei dati: tutta la popolazione conta e tutte le aree sono corrette. $y_{j}$ $x_{ji}$

Esistono molti approcci a una soluzione, come il metodo di " mappatura dasimetrica intelligente ", ma tutti quelli di cui ho letto hanno elementi ad hoc e un evidente potenziale di distorsione. Sto cercando risposte che suggeriscano metodi statistici creativi, calcolabili dal punto di vista computazionale. L'applicazione immediata riguarda una raccolta di c. - Unità di censimento in media 40 persone ciascuna (sebbene una frazione considerevole abbia 0 persone) e circa una dozzina di classi di copertura del suolo. $10^{5}$ $10^{6}$

modeling unbiased-estimator spatial

— whuber
fonte

Problema di formattazione ora risolto. Era un bug.

— Rob Hyndman,

@Rob Grazie, e grazie a tutte le persone che hanno guardato questo: ho visto i tuoi commenti prima che fossero cancellati e sono grato per i tuoi sforzi.

— whuber

Anche questo: P. A Zandbergen e D. A Ignizio, "Confronto tra tecniche di mappatura dasimetrica per stime della popolazione su piccola area", Cartografia e scienze dell'informazione geografica 37, n. 3 (2010): 199–214. ingentaconnect.com/content/acsm/cagis/2010/00000037/00000003/… Che sembra richiedere un blending.

— fgregg,

Questo documento potrebbe essere utile: Hwahwan Kim e Xiaobai Yao, "Rivisitazione dell'interpolazione picnophylactic: integrazione con il metodo di mappatura dasimetrica", International Journal of Remote Sensing 31, n. 21 (2010): 5657. informaworld.com/10.1080/01431161.2010.496805

— fgregg

Sai, la mappatura dasimetrica alla fine è un problema di inferenza ecologica. Il recente lavoro di K. Imai potrebbe essere utile: pan.oxfordjournals.org/content/16/1/41.abstract

— fgregg,

Risposte:

Potresti voler controllare il lavoro di Mitchel Langford sulla mappatura dasimetrica.

Costruisce raster che rappresentano la distribuzione della popolazione del Galles e alcuni dei suoi approcci metodologici potrebbero essere utili qui.

Aggiornamento: potresti anche dare un'occhiata al lavoro di Jeremy Mennis (specialmente questi due articoli).

— Radek
fonte

Grazie. Quel lavoro fornisce un puntatore a una rete di ricerche recenti sulla mappatura dasimetrica.

— whuber

Domanda interessante. Ecco un tentativo provvisorio di avvicinarsi da un punto di vista statistico. Supponiamo di trovare un modo per assegnare un conteggio della popolazione a ciascuna area . Indica questa relazione come di seguito: $x_{ji}$

$z_{ji} = f(x_{ji},\beta)$

Chiaramente, qualunque forma funzionale imponiamo su $f(.)$ Sarà nella migliore delle ipotesi un'approssimazione alla relazione reale e quindi la necessità di incorporare l'errore nell'equazione di cui sopra. Pertanto, quanto sopra diventa:

$z_{ji} = f(x_{ji},\beta) + \epsilon_{ji}$

dove,

$\epsilon_{ji} \sim N(0,\sigma^2)$

Il presupposto di errore distributivo sul termine di errore è a scopo illustrativo. Se necessario, possiamo cambiarlo secondo necessità.

$y_{ji}$ $f(.)$ as below:

$\sum_i{\epsilon_{ji}} = 0$

$\sum_i{f(x_{ji},\beta)} = y_j$

Denote the stacked vector of ${z_{ji}}$ by $z_j$ and the stacked deterministic terms of ${f(x_{ji},\beta)}$ by $f_j$ . Thus, we have:

$z_j \sim N(f_j,\sigma^2 I) I({f_j}' e = y_j) I((z_j-f_j)' e = 0)$

where,

$e$ is a vector of ones of appropriate dimension.

The first indicator constraint captures the idea that the sum of the deterministic terms should sum to $y_j$ and the second one captures the idea that the error residuals should sum to 0.

Model selection is trickier as we are decomposing the observed $y_j$ exactly. Perhaps, a way to approach model selection is to choose the model that yields the lowest error variance i.e., the one that yields the lowest estimate of $\sigma^2$ .

Edit 1

Thinking some more the above formulation can be simplified as it has more constraints than needed.

$z_{ji} = f(x_{ji},\beta) + \epsilon_{ji}$

where,

$\epsilon_{ji} \sim N(0,\sigma^2)$

Denote the stacked vector of ${z_{ji}}$ by $z_j$ and the stacked deterministic terms of ${f(x_{ji},\beta)}$ by $f_j$ . Thus, we have:

$z_j \sim N(f_j,\sigma^2 I) I({z_j}' e = y_j)$

where,

$e$ is a vector of ones of appropriate dimension.

The constraint on $z_j$ ensures an exact decomposition.

@Srikant Thank you. I was thinking along similar lines when I posed the question and have since tested out a GLM (Poisson distribution with linear link) as well as some other models. Unfortunately, it now looks like any model based solely on land cover type and proportion will not work well: a sample of these data suggests that population patterns depend on a larger spatial context. At a minimum, then, we would need to include spatially lagged covariates in a linear model.

— whuber