In che modo ripensare i dati sulla diversità del sondaggio della comunità americana influirebbe sui suoi margini di errore?


10

Contesto: la mia organizzazione attualmente confronta le statistiche sulla diversità della forza lavoro (es.% Di persone con disabilità,% donne,% veterani) con la disponibilità totale di forza lavoro per quei gruppi sulla base dell'American Community Survey (un progetto di indagine dell'Ufficio censimento degli Stati Uniti). Questo è un punto di riferimento impreciso, perché abbiamo una serie molto specifica di posti di lavoro con una demografia diversa rispetto alla forza lavoro nel suo insieme. Supponiamo, ad esempio, che la mia organizzazione sia principalmente ingegneri. L'ingegneria è solo il 20% circa delle donne nel mio stato. Se ci confrontiamo con il benchmark totale della forza lavoro, che è più simile al 50% delle donne, si crea il panico che "abbiamo solo il 20% di donne, questo è un disastro!" quando in realtà, il 20% è quello che dovremmo aspettarci perché è così che appare il panorama del lavoro.

Il mio obiettivo: quello che vorrei fare è prendere i dati sull'occupazione dell'American Community Survey (per categoria di diversità) e ponderarli di nuovo in base alla composizione dei lavori nella mia attività. Ecco un set di dati di esempio per i lavoratori dei servizi sociali e comunitari . Voglio aggiungere questi codici di lavoro elencati insieme (perché il nostro passaggio pedonale è rivolto a gruppi di lavoro, non a codici di lavoro specifici), quindi desidero ponderare quel benchmark in base al numero di persone che abbiamo in quella categoria (es. I nostri 3.000 social e Operatori del servizio di comunità), quindi voglio fare lo stesso con tutti gli altri gruppi di lavoro, sommare questi numeri e dividere per il numero totale di lavoratori. Ciò mi darebbe una nuova misura di diversità ponderata (es. Dal 6% delle persone con disabilità al 2% di persone con disabilità).

Le mie domande: Come posso adattare i margini di errore a questo benchmark cumulativo finale? Non ho il set di dati del censimento non elaborato (ovviamente), ma è possibile visualizzare i margini di errore per ciascun numero nel collegamento che ho fornito impostando il campo "Stima" su "Margine di errore" nella parte superiore della tabella. Gli altri miei colleghi che stanno lavorando con questi dati intendono ignorare completamente i margini di errore, ma sono preoccupato che stiamo creando un benchmark statisticamente insignificante per noi stessi. Questi dati sono ancora utilizzabili anche dopo la manipolazione sopra descritta?


3
Non ripesare l'ACS: è un prodotto delicato, altamente sofisticato, e con tutto il rispetto non credo che tu sia uno statistico bravo come lo è il Census Bureau. Se riesci a ottenere definizioni di lavoro coerenti con il tuo compito in ACS o CPS per confronti a livello nazionale, il confronto mele-mele sarebbe quello di calcolare il numero atteso di categorie di "diversità" sulla base di ACS affinché la tua azienda agisca come ragionevole diversità obiettivi.
Attacca l'

2
Stas, sono d'accordo con te, ma come indico di seguito, non si tratta in realtà di una ponderazione dell'ACS.
Steve Samuels,

Nelle statistiche del sondaggio, "ripianificare" significherebbe la trasformazione dei pesi del sondaggio originale . Un esempio di questo potrebbe essere la post-stratificazione, il rastrellamento del campione o la calibrazione in modo che certe distribuzioni marginali per le distribuzioni di campione ponderate corrispondano conosciute esternamente, dal censimento o dall'ACS. La procedura menzionata da Danica non tocca i pesi ACS.
Steve Samuels,

Ciò che può aiutare è di annotare la quantità di popolazione finita che si desidera conoscere. Inoltre l'ACS ha pesi replicati? Questi possono aiutare con la stima della varianza.
probabilityislogic

Risposte:


8

Aggiornamento 15-01-2014

Mi rendo conto di non aver risposto alla domanda iniziale di Danica sul fatto che il margine di errore per la proporzione rettificata indirettamente disabilitata sarebbe maggiore o minore del margine di errore per lo stesso tasso in ACS. La risposta è: se le proporzioni della categoria aziendale non differiscono drasticamente dalle proporzioni ACS statali, il margine di errore indicato di seguito sarà inferiore al margine di errore ACS. Il motivo: il tasso indiretto tratta i numeri delle persone della categoria di lavoro dell'organizzazione (o le relative proporzioni) come numeri fissi . La stima ACS della proporzione disabilitata richiede, in effetti, una stima di tali proporzioni e i margini di errore aumenteranno per riflettere ciò.

Per illustrare, scrivi la tariffa disabilitata come:

P^un'dj=Σnionpio^

dove p i è il tasso stimato disabile nella categoria I del ACS.p^ioio

D'altra parte, il tasso stimato di ACS è, in effetti:

P^un'cS=Σ(NioN)^pio^

dove e N sono rispettivamente la categoria della popolazione e i totali complessivi e N i / N è la proporzione della popolazione nella categoria i .NioNNio/Nio

Nio/Npio

SE(P^un'dj)>SE(P^un'cS)N1/N=0,7345N2/N=0,2655SE(P^un'cS)=0,0677

n1/nn2/nSE(P^un'dj)=0,0375n1/n=0.15S E ( P un d j ) = 0,0678 S E ( P un c s ) n 1 / n = 0.001 n 2 / n = 0,999 S E ( P un d j ) = 0,079n2/n=0.85SE(P^un'dj)=0,0678SE(P^un'cS)n1/n=0.001n2/n=0,999SE(P^un'dj)=0,079. Sarei sorpreso se le proporzioni delle categorie di organizzazione e popolazione differiscono così drasticamente. In caso contrario, penso che sia sicuro utilizzare il margine di errore ACS come stima conservativa, possibilmente molto conservativa, del vero margine di errore.

Aggiornamento 2014-01-14

Risposta breve

A mio avviso, sarebbe irresponsabile presentare una simile statistica senza un elemento della configurazione o un margine di errore (metà della lunghezza dell'elemento della configurazione). Per calcolarli, dovrai scaricare e analizzare il campione di microdati (PUMS) di uso pubblico di ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Risposta lunga

Questo non è in realtà un ripensamento dell'ACS. È una versione della standardizzazione indiretta, una procedura standard in epidemiologia (google o vedi qualsiasi testo epi). In questo caso, i tassi di invalidità del lavoro ACS (categoria) vengono ponderati in base al conteggio dei dipendenti della categoria di lavoro dell'organizzazione. Ciò calcolerà un numero previsto di persone disabili nell'organizzazione E, che può essere confrontato con il numero osservato O. La consueta metrica per il confronto è un rapporto standardizzato R= (O/E). (Il termine abituale è "SMR", per "rapporto standardizzato di mortalità", ma qui il "risultato" è la disabilità.). Rè anche il rapporto tra il tasso di disabilità osservato (O/n)e il tasso indirettamente standardizzato (E/n), dove nè il numero di dipendenti dell'organizzazione.

In questo caso, sembra che solo un elemento della configurazione sia necessario Eo E/nsarà necessario, quindi inizierò con quello:

Se

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

Poi

 E = sum (n_i p_i)

La varianza di Eè:

 var(E) = nn' V nn

dove si nntrova il vettore di colonna dei conteggi delle categorie di organizzazione ed Vè la matrice stimata di varianza-covarianza dei tassi di disabilità della categoria ACS.

Inoltre, banalmente, se(E) = sqrt(var(E))e se(E/n) = se(E)/n.

e un IC al 90% per E è

  E ± 1.645 SE(E)

Dividi nper ottenere l'IC per E/n.

Per effettuare una stima, var(E)è necessario scaricare e analizzare i dati ACUM Public Use Microdata Sample (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Posso solo parlare del processo per l'informatica var(E)in Stata. Dato che non so se è disponibile per te, differirò i dettagli. Tuttavia, qualcuno che sia a conoscenza delle capacità di rilevamento di R o (possibilmente) SAS può anche fornire codice dalle equazioni sopra.

Intervallo di confidenza per il rapporto R

Gli intervalli di confidenza per Rsono generalmente basati su un'ipotesi di Poisson per O, ma questa ipotesi potrebbe non essere corretta.

Possiamo considerare Oed Eessere indipendenti, quindi

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))può essere calcolato come un ulteriore passo di Stata dopo il calcolo di var(E).

Sotto il presupposto di indipendenza di Poisson:

 var(log O) ~ 1/E(O).

Un programma come Stata potrebbe adattarsi, per esempio, a un modello binomiale negativo o un modello lineare generalizzato e darti un termine di varianza più accurato.

Un IC approssimativo del 90% per log Rè

 log R ± 1.645 sqrt(var(log R))

e gli endpoint possono essere esponenziati per ottenere l'IC R.


log(R)R

Questo non mi è sembrato un caso in cui la macchia fosse appropriata, ma potrei sbagliarmi. Che cosa suggeriresti?
Steve Samuels,

Alcuni metodi menzionati nel CV includono il boostrapping dell'IC, il metodo delta e la profilazione della funzione di verosimiglianza.
whuber

Grazie per la tua risposta. È possibile estrarre i dati PUMS con R? Non ho SAS. Ho estratto i dati PUMS prima di utilizzare lo strumento DataFerret fornito dal censimento, ma non sono sicuro che ciò mi dia tutto ciò che potrei utilmente manipolare in Excel, che è quello che ho. Posso installare R, ovviamente, ma non ho alcuna esperienza con esso.
Danica E

1
Prego, Danica. Se questa risposta è utile, clicca sul segno di spunta per accettarla ufficialmente. Si noti che ho aggiornato la risposta. Vi consiglio di presentare i margini di errore ACS come sostituti conservativi per quelli corretti.
Steve Samuels,

4

FWIW ci sono buone risorse per l'ACS e l'accesso a PUMS qui ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).

Inoltre c'è un pacchetto per la gestione dei dati ACS sul CRAN - chiamato, naturalmente, ACS - che ho trovato davvero utile per fare cose atipiche con i dati ACS. Questo è un buon passo per passo per il pacchetto (purtroppo la documentazione non è super intuitiva) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf


3

aggiungendo al link http://asdfree.com nella risposta di @ pricele2 .. per risolvere questo problema con il software libero, ti incoraggio a seguire questi passaggi:

(1) ( due ore di duro lavoro ) familiarizzare con la lingua r. guarda i primi 50 video, due minuti ciascuno

http://twotorials.com/

(2) ( un'ora di istruzioni facili da seguire ) installa monetdb sul tuo computer

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3) ( trenta minuti di istruzioni seguenti + download notturno ) scarica le acs sul tuo computer. prendi solo gli anni che ti servono.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R

(4) ( quattro ore di apprendimento, programmazione e verifica del lavoro ) ricodificano le variabili che è necessario ricodificare, in base alle specifiche richieste

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(5) ( due ore di analisi effettiva ) esegui il comando esatto che stai cercando, acquisisci l'errore standard e calcola un intervallo di confidenza.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

(6) ( quattro ore di programmazione ) se è necessario uno stimatore del rapporto, seguire l'esempio di stima del rapporto (con errore standard corretto per il rilevamento corretto) qui:

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552


Grazie, queste sono risorse eccellenti. Se qualcun altro viene qui alla ricerca di queste informazioni, i tutorial R che sto usando sono datacamp.com e coursera.org/course/rprog . Data Camp è un fantastico tutorial interattivo. Il corso di Coursera è più pesante sulla teoria / struttura / nomi per le cose.
DanicaE
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.