Aggiornamento 15-01-2014
Mi rendo conto di non aver risposto alla domanda iniziale di Danica sul fatto che il margine di errore per la proporzione rettificata indirettamente disabilitata sarebbe maggiore o minore del margine di errore per lo stesso tasso in ACS. La risposta è: se le proporzioni della categoria aziendale non differiscono drasticamente dalle proporzioni ACS statali, il margine di errore indicato di seguito sarà inferiore al margine di errore ACS. Il motivo: il tasso indiretto tratta i numeri delle persone della categoria di lavoro dell'organizzazione (o le relative proporzioni) come numeri fissi . La stima ACS della proporzione disabilitata richiede, in effetti, una stima di tali proporzioni e i margini di errore aumenteranno per riflettere ciò.
Per illustrare, scrivi la tariffa disabilitata come:
P^a dj= ∑ nionpio^
dove p i è il tasso stimato disabile nella categoria I del ACS.p^ioio
D'altra parte, il tasso stimato di ACS è, in effetti:
P^a c s= ∑ ( NioN)ˆpio^
dove e N sono rispettivamente la categoria della popolazione e i totali complessivi e N i / N è la proporzione della popolazione nella categoria i .NioNNio/ Nio
Nio/ Npio
SE( P^a dj) > SE( P^a c s)N1/ N= 0,7345N2/ N= 0,2655SE( P^a c s) = 0,0677
n1/ nn2/ nSE( P^a dj) = 0,0375n1/ n=0,15S E ( P un d j ) = 0,0678 S E ( P un c s ) n 1 / n = 0.001 n 2 / n = 0,999 S E ( P un d j ) = 0,079n2/ n=0,85SE( P^un'dj) = 0,0678SE( P^a c s)n1/ n=0,001n2/ n=0,999SE( P^a dj) = 0,079. Sarei sorpreso se le proporzioni delle categorie di organizzazione e popolazione differiscono così drasticamente. In caso contrario, penso che sia sicuro utilizzare il margine di errore ACS come stima conservativa, possibilmente molto conservativa, del vero margine di errore.
Aggiornamento 2014-01-14
Risposta breve
A mio avviso, sarebbe irresponsabile presentare una simile statistica senza un elemento della configurazione o un margine di errore (metà della lunghezza dell'elemento della configurazione). Per calcolarli, dovrai scaricare e analizzare il campione di microdati (PUMS) di uso pubblico di ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).
Risposta lunga
Questo non è in realtà un ripensamento dell'ACS. È una versione della standardizzazione indiretta, una procedura standard in epidemiologia (google o vedi qualsiasi testo epi). In questo caso, i tassi di invalidità del lavoro ACS (categoria) vengono ponderati in base al conteggio dei dipendenti della categoria di lavoro dell'organizzazione. Ciò calcolerà un numero previsto di persone disabili nell'organizzazione E
, che può essere confrontato con il numero osservato O
. La consueta metrica per il confronto è un rapporto standardizzato R= (O/E)
. (Il termine abituale è "SMR", per "rapporto standardizzato di mortalità", ma qui il "risultato" è la disabilità.). R
è anche il rapporto tra il tasso di disabilità osservato (O/n)
e il tasso indirettamente standardizzato (E/n)
, dove n
è il numero di dipendenti dell'organizzazione.
In questo caso, sembra che solo un elemento della configurazione sia necessario E
o E/n
sarà necessario, quindi inizierò con quello:
Se
n_i = the organization employee count in job category i
p_i = disability rate for job category i in the ACS
Poi
E = sum (n_i p_i)
La varianza di E
è:
var(E) = nn' V nn
dove si nn
trova il vettore di colonna dei conteggi delle categorie di organizzazione ed V
è la matrice stimata di varianza-covarianza dei tassi di disabilità della categoria ACS.
Inoltre, banalmente, se(E) = sqrt(var(E))
e se(E/n) = se(E)/n
.
e un IC al 90% per E è
E ± 1.645 SE(E)
Dividi n
per ottenere l'IC per E/n
.
Per effettuare una stima, var(E)
è necessario scaricare e analizzare i dati ACUM Public Use Microdata Sample (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).
Posso solo parlare del processo per l'informatica var(E)
in Stata. Dato che non so se è disponibile per te, differirò i dettagli. Tuttavia, qualcuno che sia a conoscenza delle capacità di rilevamento di R o (possibilmente) SAS può anche fornire codice dalle equazioni sopra.
Intervallo di confidenza per il rapporto R
Gli intervalli di confidenza per R
sono generalmente basati su un'ipotesi di Poisson per O
, ma questa ipotesi potrebbe non essere corretta.
Possiamo considerare O
ed E
essere indipendenti, quindi
log R = log(O) - log(E) ->
var(log R) = var(log O) + var(log(E))
var(log(E))
può essere calcolato come un ulteriore passo di Stata dopo il calcolo di var(E)
.
Sotto il presupposto di indipendenza di Poisson:
var(log O) ~ 1/E(O).
Un programma come Stata potrebbe adattarsi, per esempio, a un modello binomiale negativo o un modello lineare generalizzato e darti un termine di varianza più accurato.
Un IC approssimativo del 90% per log R
è
log R ± 1.645 sqrt(var(log R))
e gli endpoint possono essere esponenziati per ottenere l'IC R
.