Come posso simulare i microdati di censimento per piccole aree usando un campione di microdati dell'1% su larga scala e statistiche aggregate su piccola scala?


9

Vorrei eseguire un'analisi multivariata a livello individuale a piccoli livelli di aggregazione geografica (distretti australiani di raccolta del censimento). Chiaramente, il censimento non è disponibile a questi piccoli livelli di aggregazione per motivi di privacy, quindi sto studiando altre alternative. Quasi tutte le variabili di interesse sono categoriche. Ho due set di dati a mia disposizione:

  • Il campione del censimento dell'1% è disponibile a un livello molto maggiore di aggregazione spaziale (un'area con una popolazione di ~ 190.000 e una vasta segregazione spaziale di dati demografici).

  • Tabelle di frequenza per le variabili che mi interessano a livello di piccola area (500 piccole aree, media pop = 385, sd = 319, mediana = 355).

Come posso utilizzare questi due set di dati per simulare una distribuzione della popolazione a livello di piccola area il più vicino possibile alla popolazione effettiva della piccola area?

Apprezzo che potrebbero esserci metodi di routine per farlo; in tal caso sarebbe molto apprezzato un puntatore a un libro di testo o ad articoli di riviste pertinenti.


possibilmente correlato (sto riscontrando un problema simile): stats.stackexchange.com/questions/14399/… Il campionamento di Gibbs potrebbe essere ciò che è necessario qui.
mzuba,

Potresti fare una domanda sulla mailing list di SRMSNET dell'American Statistical Association. Se tu fossi in Australia, mi avvicinerei a Ray Chambers - immagino che nessuno conosca SAE meglio di lui nell'emisfero australe :).
StasK,

Questo problema è strettamente correlato alla "mappatura dasimetrica".
whuber

1
Concordo con @whuber e la mappatura dasimetrica può essere interessante per fmark anche dato il materiale in oggetto. Sfortunatamente, è in gran parte separato dalla letteratura sull'inferenza ecologica che ho citato nella mia risposta (non voglio accumulare più letteratura!) Cosa ne pensi fmark?
Andy W,

1
Alcune tecniche di mappatura dasimetrica hanno iniziato a utilizzare i dati ausiliari per tentare di interpolare i dati in aree più piccole. Gli obiettivi dell'inferenza ecologica e della mappatura dasimetrica sono in qualche modo diversi (in qualche modo analoghi alla differenza tra previsione / previsione e inferenza). Scriverò un altro post su quelle fonti che ho raccolto che penso possano interessare anche. Purtroppo non posso dare consigli molto più utili di citare un sacco di letteratura. È un argomento popolare e contemporaneo e spero che tu possa contribuire ad esso!
Andy W,

Risposte:


5

La mappatura dasimetrica si concentra principalmente sull'interpolazione delle stime della popolazione in aree più piccole rispetto a quelle disponibili nei dati attualmente diffusi (vedere questa domanda per una serie di utili riferimenti sull'argomento). Spesso questo è stato fatto semplicemente identificando le aree (in base alle caratteristiche del terreno) in cui ovviamente non esiste alcuna popolazione, e quindi rivalutando la densità della popolazione (inserendo tali aree). Un esempio potrebbe essere se c'è un corpo idrico in una città, un altro potrebbe essere se identifichi pacchi di terreni industriali che non possono avere una popolazione residenziale. Approcci più recenti alla mappatura dasimetrica incorporano altri dati ausiliari in un quadro probabilistico per allocare stime di popolazione (Kyriakidis, 2004; Liu et al., 2008; Lin et al., 2011; Zhang & Qiu, 2011).

Ora è facile vedere a portata di mano la relazione con la tua domanda. Volete le stime sulla popolazione delle piccole aree. Ma dovrebbe anche essere chiaro come potrebbe non essere all'altezza dei tuoi obiettivi. Non vuoi solo i dati sulla popolazione, ma anche le caratteristiche di quelle popolazioni. Uno dei termini usati per descrivere questa situazione è il cambiamento del problema del supporto (Cressie, 1996; Gotway & Young, 2002). Prendendo in prestito dalla letteratura geostatistica in cui si cerca di fare previsioni di una certa caratteristica su una vasta area da campioni puntuali, recenti lavori hanno tentato di interpolare i dati areali in diverse zone target. Gran parte del lavoro di Pierre Goovaerts si concentra su tali metodi di kriging area-punto, un recente articolo sulla rivista Geographical Analysis ha diversi esempi del metodo applicato diversi materiali tematici (Haining et al., 2010), e una delle mie applicazioni preferite è in questo articolo (Young et al., 2009).

Tuttavia, ciò che cito non dovrebbe essere considerato una panacea del problema. Alla fine, molti degli stessi problemi legati all'inferenza ecologica e alla tendenza all'aggregazione si applicano anche agli obiettivi dell'interpolazione areale. È verosimile che molte delle relazioni tra i dati a livello micro siano semplicemente perse nel processo di aggregazione e tali tecniche di interpolazione non saranno in grado di recuperarle. Anche il processo attraverso il quale i dati sono interpolati empiricamente (attraverso la stima di vari diagrammi dai dati di livello aggregato) è spesso piuttosto pieno di passaggi ad hoc che dovrebbero rendere discutibile il processo (Goovaerts, 2008).

Sfortunatamente, inserisco questo in una risposta separata in quanto la letteratura sull'inferenza ecologica e la letteratura sulla mappatura dasimetrica e il kriging area-punto non si sovrappongono. Sebbene la letteratura sull'inferenza ecologica abbia molte implicazioni per queste tecniche. Non solo le tecniche di interpolazione sono soggette a distorsioni di aggregazione, ma le tecniche dasimetriche intelligenti (che usano i dati aggregati per adattarsi ai modelli per prevedere le aree più piccole) sono probabilmente sospette di distorsioni di aggregazione. La conoscenza delle situazioni in cui si verifica la distorsione da aggregazione dovrebbe essere illuminante quanto alle situazioni in cui l'interpolazione areale e la mappatura dasimetrica falliranno ampiamente (specialmente per quanto riguarda l'identificazione delle correlazioni tra le diverse variabili a livello disaggregato).


citazioni


Grazie per l'utile punto di partenza nella letteratura contemporanea: non ero a conoscenza di metodi dasimetrici che facessero molto più che ripensare la densità di popolazione, quindi esaminerò con entusiasmo.
fmark

5

Il lavoro di Gary King, in particolare il suo libro "Una soluzione al problema dell'inferenza ecologica " (i primi due capitoli sono disponibili qui ), sarebbe interessante (così come il software di accompagnamento che usa per l'inferenza ecologica). Nel suo libro King mostra come migliorare le stime dei modelli di regressione utilizzando i dati aggregati esaminando i potenziali limiti che i raggruppamenti di livello inferiore hanno basato sui dati aggregati disponibili. Il fatto che i tuoi dati siano per lo più raggruppamenti categorici li rende suscettibili a questa tecnica. (Anche se non fatevi ingannare, non è tanto una soluzione omnibus quanto potreste sperare dato il titolo!) Esistono lavori più attuali, ma il libro di King è l'IMO il punto di partenza migliore.

Un'altra possibilità sarebbe solo quella di rappresentare i potenziali limiti dei dati stessi (in mappe o grafici). Quindi, ad esempio, potresti avere la distribuzione del sesso riportata a livello aggregato (diciamo 5.000 uomini e 5.000 donne) e sai che questo livello aggregato comprende 2 diverse unità di piccole aree di popolazione 9.000 e 1.000 individui. È quindi possibile rappresentarlo come una tabella di contingenza del modulo;

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000 

Sebbene non ci siano informazioni nelle celle per le aggregazioni di livello inferiore, dai totali marginali possiamo costruire valori potenziali minimi o massimi per ogni cella. Quindi, in questo esempio, la Men X Unit1cella può assumere valori compresi tra 4.000 e 5.000 (ogni volta che le distribuzioni marginali sono più irregolari, minore è l'intervallo di valori possibili che le celle assumeranno). Apparentemente ottenere i limiti del tavolo è più difficile di quanto mi aspettassi ( Dobra e Fienberg, 2000 ), ma sembra che una funzione sia disponibile nella eiPacklibreria in R ( Lau et al., 2007, p. 43 ).

L'analisi multivariata con dati a livello aggregato è difficile, poiché inevitabilmente si verifica un errore di aggregazione con questo tipo di dati. (In poche parole, descriverei semplicemente il pregiudizio di aggregazione in quanto molti processi di generazione di dati a livello individuale potrebbero portare a associazioni di livello aggregato) Una serie di articoli dell'American Sociological Reviewnegli anni '70 sono alcuni dei miei riferimenti preferiti per gli argomenti (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974) anche se fonti canoniche sull'argomento potrebbero essere (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Penso che rappresentare i potenziali limiti che i dati potrebbero assumere potrebbero essere potenzialmente incitanti, anche se sei davvero ostacolato dalle limitazioni dei dati aggregati per condurre analisi multivariate. Ciò non impedisce a nessuno di farlo anche se nelle scienze sociali (nel bene o nel male!)

Nota, (come ha detto Charlie nei commenti) che la "soluzione" di King ha ricevuto una discreta quantità di critiche (Anselin & Cho, 2002; Freedman et al., 1998). Sebbene tali critiche non siano dirette sulla matematica del metodo di King, tanto più per quanto riguarda le situazioni in cui il metodo di King non riesce ancora a tenere conto del pregiudizio di aggregazione (e sono d'accordo sia con Freedman che Anselin in quanto le situazioni in cui i dati per le scienze sociali sono ancora sospette sono molto più comuni di quelle che soddisfano i presupposti di King). Questo è in parte il motivo per cui suggerisco solo di esaminare i limiti (non c'è nulla di sbagliato in questo), ma fare inferenze sulle correlazioni a livello individuale da tali dati richiede molti più salti di fede che alla fine sono ingiustificati nella maggior parte delle situazioni.


citazioni


Si noti che altri hanno criticato l'approccio di King alla questione dell'errore ecologico; David Freedman è un esempio notevole. Ecco la risposta che Freedman e i suoi coautori danno al libro di King sopra citato: citeseerx.ist.psu.edu/viewdoc/… Naturalmente King ha una risposta e Freedman et al. avere una risposta alla risposta alla risposta ... Non riesco proprio a capire cosa stai cercando di fare e quali dati hai, ma sono generalmente molto scettico sulle analisi ecologiche di tipo inferenza.
Charlie,

Sì, @Charlie, sono d'accordo (e in particolare mi piace l'idea di Freedman sull'argomento in generale). Questo è in parte il motivo per cui indico la letteratura generale sulla distorsione da aggregazione alla fine del mio post. Non sono del tutto sicuro di cosa intendi con l'affermazione "Non riesco proprio a capire cosa stai cercando di fare e quali dati hai, ma sono generalmente molto scettico sulle analisi ecologiche di tipo inferenza", è questo in per quanto riguarda il re e Freedman entrambi si lamentano di non condividere i dati?
Andy W,

@Andy, questa tecnica è la stessa di ciò che gli economisti conoscono come distribuzioni parzialmente identificate ( springer.com/statistics/statistical+theory+and+methods/book/… )?
StasK,

@Andy, no, scusami per l'ambiguità. In realtà stavo parlando con l'OP. Se ha tabelle di frequenza nella piccola area e vuole ottenere statistiche a livello della piccola area, cosa manca? Immagino che debba avere solo i margini, ma non i contenuti della cella, come suggerisci nel tuo post.
Charlie,

@StasK, non lo so. Verificherò se King farà riferimento a Manski alla fine di questa settimana quando avrò accesso al libro. È probabile che si verifichino sovrapposizioni dato che l'inferenza ecologica è menzionata in astratto. Un'altra potenziale fonte (gratuita) per esplorare l'associazione tra i due potrebbe essere il lettore King pubblicato su "Nuovi metodi nell'inferenza ecologica" ( pubblicato integralmente sul suo sito Web)
Andy W

2

Non sono sicuro che esista in letteratura una risposta ben definita per questo, dato che la ricerca di Google fornisce sostanzialmente tre riferimenti utilizzabili sulla stima multivariata di piccole aree. Pfeffermann (2002) discute le variabili di risposta discrete nella sezione 4 del documento, ma questi saranno modelli univariati. Naturalmente, con i metodi gerarchici bayesiani ( Rao 2003, cap. 10 ), puoi fare qualsiasi tipo di meraviglia, ma se alla fine ti ritrovi a replicare i tuoi priori (perché hai così pochi dati), questo sarebbe un terribile risultato del tuo esercizio di simulazione. Inoltre, Rao tratta solo variabili continue.

Immagino che la sfida più grande sarà la decomposizione della matrice di covarianza nelle componenti tra e all'interno di una piccola area. Con un campione dell'1%, avrai solo 3 osservazioni dal tuo SAE, quindi potrebbe essere difficile ottenere una stima stabile del componente interno.

Se fossi nei tuoi panni, proverei un'estensione multivariata del modello di Pfeffermann con un effetto casuale multivariato della piccola area. Potresti davvero finire con un modello gerarchico bayesiano per questo, se non funziona in base al design.

AGGIORNAMENTO (per rispondere al commento di Andy a questa risposta): i metodi bootstrap per la stima di piccole aree ( Lahiri 2003 ) ricreano specificamente una popolazione plausibile dallo studio. Mentre l'obiettivo dell'esercizio bootstrap è di stimare le varianze delle stime su piccole aree, le procedure dovrebbero essere di interesse e rilevanza per il problema pubblicato.


Non valuterei lo stato di una letteratura basata su una ricerca su Google. Non sono sicuro che la stima di una piccola area sia ciò che l'autore avrebbe cercato in questo caso. Per quanto ne so, la letteratura si concentra sia sulla previsione di caratteristiche in piccole aree ( Kriegler e Berk, 2010 ), sia sulla stima dei parametri in modelli multi-livello basati su un numero limitato di campioni per unità aggregata.
Andy W,

Non sono sicuro che la stima di piccole aree sia ciò che voglio fare. A quanto ho capito, la stima di una piccola area cerca di passare da alcuni campioni in una piccola area a statistiche aggregate di sintesi. Sto cercando il contrario (per passare da una distribuzione della popolazione di grandi aree e da statistiche riassuntive aggregate di piccole aree a una popolazione simulata di piccole aree). Lahiri 2003 sembra un buon punto di partenza qui.
fmark
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.