Modello per la stima della densità di popolazione


14

Un database di (popolazione, area, forma) può essere utilizzato per mappare la densità di popolazione assegnando un valore costante di popolazione / area a ciascuna forma (che è un poligono come un blocco censimento, tratto, contea, stato, qualunque cosa). Le popolazioni di solito non sono distribuite uniformemente nei loro poligoni, tuttavia. La mappatura dasimetrica è il processo di perfezionamento di queste stime di densità mediante dati ausiliari. È un problema importante nelle scienze sociali come indica questa recente recensione .

Supponiamo quindi di avere a disposizione una mappa ausiliaria della copertura del suolo (o di qualsiasi altro fattore discreto). Nel caso più semplice possiamo usare aree ovviamente inabitabili come i corpi idrici per delineare dove non c'è la popolazione e, di conseguenza, assegnare tutta la popolazione alle aree rimanenti. Più in generale, ogni unità di censimento j è scolpita in k porzioni aventi aree di superficie xji , i=1,2,,k . Il nostro set di dati viene quindi aumentato in un elenco di tuple

(yj,xj1,xj2,,xjk)

dove yj è la popolazione (assunto misurata senza errore) nell'unità j e - anche se questo non è rigorosamente il caso - possiamo supporre ogni xji è anche esattamente misurato. In questi termini, l'obiettivo è dividere ogni yj in una somma

yj=zj1+zj2++zjk

dove ogni e z j i stimano la popolazione all'interno dell'unità j residente nella classe di copertura del suolo i . Le stime devono essere imparziali. Questa partizione raffina la mappa densità di popolazione assegnando la densità z j I / x j i all'intersezione della j esimo censimento poligono e l' ho esimozji0zjijizji/xjijthith classe di copertura del suolo.

Questo problema differisce dalle impostazioni di regressione standard in modi salienti:

  1. Il partizionamento di ogni yj deve essere esatto.
  2. I componenti di ogni partizione devono essere non negativi.
  3. Non c'è (presumibilmente) alcun errore in nessuno dei dati: tutta la popolazione conta e tutte le aree x j i sono corrette. yjxji

Esistono molti approcci a una soluzione, come il metodo di " mappatura dasimetrica intelligente ", ma tutti quelli di cui ho letto hanno elementi ad hoc e un evidente potenziale di distorsione. Sto cercando risposte che suggeriscano metodi statistici creativi, calcolabili dal punto di vista computazionale. L'applicazione immediata riguarda una raccolta di c. - 10 6 Unità di censimento in media 40 persone ciascuna (sebbene una frazione considerevole abbia 0 persone) e circa una dozzina di classi di copertura del suolo.105106


Problema di formattazione ora risolto. Era un bug.
Rob Hyndman,

@Rob Grazie, e grazie a tutte le persone che hanno guardato questo: ho visto i tuoi commenti prima che fossero cancellati e sono grato per i tuoi sforzi.
whuber

1
Anche questo: P. A Zandbergen e D. A Ignizio, "Confronto tra tecniche di mappatura dasimetrica per stime della popolazione su piccola area", Cartografia e scienze dell'informazione geografica 37, n. 3 (2010): 199–214. ingentaconnect.com/content/acsm/cagis/2010/00000037/00000003/… Che sembra richiedere un blending.
fgregg,

1
Questo documento potrebbe essere utile: Hwahwan Kim e Xiaobai Yao, "Rivisitazione dell'interpolazione picnophylactic: integrazione con il metodo di mappatura dasimetrica", International Journal of Remote Sensing 31, n. 21 (2010): 5657. informaworld.com/10.1080/01431161.2010.496805
fgregg

1
Sai, la mappatura dasimetrica alla fine è un problema di inferenza ecologica. Il recente lavoro di K. Imai potrebbe essere utile: pan.oxfordjournals.org/content/16/1/41.abstract
fgregg,

Risposte:


4

Potresti voler controllare il lavoro di Mitchel Langford sulla mappatura dasimetrica.

Costruisce raster che rappresentano la distribuzione della popolazione del Galles e alcuni dei suoi approcci metodologici potrebbero essere utili qui.

Aggiornamento: potresti anche dare un'occhiata al lavoro di Jeremy Mennis (specialmente questi due articoli).


2
Grazie. Quel lavoro fornisce un puntatore a una rete di ricerche recenti sulla mappatura dasimetrica.
whuber

2

Domanda interessante. Ecco un tentativo provvisorio di avvicinarsi da un punto di vista statistico. Supponiamo di trovare un modo per assegnare un conteggio della popolazione a ciascuna area . Indica questa relazione come di seguito:xji

zji=f(xji,β)

Chiaramente, qualunque forma funzionale imponiamo su f(.) Sarà nella migliore delle ipotesi un'approssimazione alla relazione reale e quindi la necessità di incorporare l'errore nell'equazione di cui sopra. Pertanto, quanto sopra diventa:

zji=f(xji,β)+ϵji

dove,

ϵjiN(0,σ2)

Il presupposto di errore distributivo sul termine di errore è a scopo illustrativo. Se necessario, possiamo cambiarlo secondo necessità.

yjif(.) as below:

iϵji=0

if(xji,β)=yj

Denote the stacked vector of zji by zj and the stacked deterministic terms of f(xji,β) by fj. Thus, we have:

zjN(fj,σ2I)I(fje=yj)I((zjfj)e=0)

where,

e is a vector of ones of appropriate dimension.

The first indicator constraint captures the idea that the sum of the deterministic terms should sum to yj and the second one captures the idea that the error residuals should sum to 0.

Model selection is trickier as we are decomposing the observed yj exactly. Perhaps, a way to approach model selection is to choose the model that yields the lowest error variance i.e., the one that yields the lowest estimate of σ2.

Edit 1

Thinking some more the above formulation can be simplified as it has more constraints than needed.

zji=f(xji,β)+ϵji

where,

ϵjiN(0,σ2)

Denote the stacked vector of zji by zj and the stacked deterministic terms of f(xji,β) by fj. Thus, we have:

zjN(fj,σ2I)I(zje=yj)

where,

e is a vector of ones of appropriate dimension.

The constraint on zj ensures an exact decomposition.


2
@Srikant Thank you. I was thinking along similar lines when I posed the question and have since tested out a GLM (Poisson distribution with linear link) as well as some other models. Unfortunately, it now looks like any model based solely on land cover type and proportion will not work well: a sample of these data suggests that population patterns depend on a larger spatial context. At a minimum, then, we would need to include spatially lagged covariates in a linear model.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.