Cosa si può fare quando si hanno variabili predittive basate su medie di gruppo con dimensioni del campione diverse?


14

Si consideri un classico problema di analisi dati in cui si ha un risultato Yi e come esso è connesso ad un numero di predittori Xi1,...,Xip . Il tipo base di applicazione in mente qui è quello

  1. Yi è un po 'il risultato a livello di gruppo, come il tasso di criminalità nella città dii .

  2. I predittori sono caratteristiche a livello di gruppo come le caratteristiche demografiche della città .i

L'obiettivo di base è quello di adattare un modello di regressione (forse con effetti casuali ma dimenticatelo per ora):

E(Yi|Xi)=β0+β1Xi1+...+βpXip

Si presenta qualche difficoltà tecnica quando uno (o più) dei predittori sono il risultato di un sondaggio che ha dimensioni del campione diverse per ogni unità? Ad esempio, supponiamo che sia un punteggio di riepilogo per la città che è la risposta media da un campione di individui dalla città ma le dimensioni del campione su cui si basavano queste medie sono molto diverse:Xi1ii

CitySample size120210033004553

Dal momento che le variabili predittive non hanno tutte lo stesso significato, in un certo senso, per ogni città, temo che il condizionamento su queste variabili in un modello di regressione come se fossero tutte "create uguali" potrebbe causare delle deduzioni fuorvianti.

C'è un nome per questo tipo di problema? Se è così, ci sono ricerche su come gestirlo?

Il mio pensiero è di trattarlo come una variabile predittiva misurata con errori e fare qualcosa in tal senso ma c'è un'eteroschedasticità negli errori di misurazione, quindi sarebbe molto complicato. Potrei pensare a questo nel modo sbagliato o potrebbe renderlo più complicato di quanto non sia, ma qualsiasi discussione qui sarebbe utile.


8
Questo è chiamato problema "errori eteroscedastici nelle variabili". (Questa frase è un buon obiettivo per una ricerca su Google.) Recentemente (2007), Delaigle e Meister hanno proposto uno stimatore della densità del kernel non parametrico in un articolo JASA . Un abstract su alcuni metodi parametrici (metodo dei momenti e MLE) suggerisce alcuni approcci aggiuntivi: sciencedirect.com/science/article/pii/S1572312709000045 . (Non ho abbastanza familiarità con la ricerca per darti una risposta autorevole su come gestire il tuo set di dati specifico.)
whuber

1
@whuber +1 per entrambi i commenti. Penso che "errori nelle variabili" fosse la parola chiave mancante che stavo cercando. Se nessuno dà una risposta forte sotto che posso accettare, allora guarderò nella letteratura e torno a pubblicare qualsiasi cosa finisca per fare come risposta.
Macro

Risposte:



0

Un modo per affrontarlo sarebbe quello di supporre che ogni città abbia una distribuzione con la stessa varianza per le risposte individuali. Quindi la misura media ciascuna città per il predittore avrebbe una varianza , dove è il numero di individui nella media per la città . Sarebbe un modo semplice per affrontare l'eteroschedasticità. Non conosco alcun nome speciale per questa forma del problema di regressione.X iσ2Xiσ2/ninii


Sembra ragionevole, anche se speravo di non dover assolutamente modellare l'errore di misurazione. Se andassi in quella direzione, cosa useresti per stimare l'effetto di un predittore misurato con errore? Ho usato un metodo chiamato SIMEX, ma questo sembra insolito e mi chiedo se ci sono altre opzioni.
Macro,

@Macro Non ho familiarità con software specifici per la modellazione della regressione con una funzione di varianza da stimare.
Michael R. Chernick,

3
La macro, come regola empirica nella regressione omoscedastica degli errori nelle variabili, se gli errori nei IV sono piccoli rispetto agli errori nel DV, puoi tranquillamente ignorare il primo e ricorrere alla regressione ordinaria. Questo ti dà un modo rapido e semplice per risolvere il problema.
whuber

1
@whuber, grazie - è utile. Sembra che se questa regola empirica ha senso, nel caso eteroschedastico avrebbe senso usare "se la più grande varianza di errore nei IV è piccola rispetto alla varianza di errore nel DV, si può tranquillamente ignorare il problema" sarebbe una regola empirica ragionevole che è una condizione che potrebbe essere effettivamente soddisfatta nei dati che sto esaminando.
Macro,

1
@Michael, nei dati che sto osservando la varianza della misurazione media non è enorme. Dovrei controllare ma diciamo , quindi la varianza delle medie (se è ragionevole dire che la varianza è costante tra le unità - un'altra cosa che dovrei controllare) è 1 / n , quindi varia tra ( .05 , 1 ) per le dimensioni del campione nel mio set di dati. La varianza dell'errore in Y i è probabilmente una, forse due ordini di grandezza più grandi di questo (di nuovo, dovrò controllare). σ211/n(.05,1)Yi
Macro,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.