Si consideri un classico problema di analisi dati in cui si ha un risultato e come esso è connesso ad un numero di predittori . Il tipo base di applicazione in mente qui è quello
è un po 'il risultato a livello di gruppo, come il tasso di criminalità nella città di .
I predittori sono caratteristiche a livello di gruppo come le caratteristiche demografiche della città .
L'obiettivo di base è quello di adattare un modello di regressione (forse con effetti casuali ma dimenticatelo per ora):
Si presenta qualche difficoltà tecnica quando uno (o più) dei predittori sono il risultato di un sondaggio che ha dimensioni del campione diverse per ogni unità? Ad esempio, supponiamo che sia un punteggio di riepilogo per la città che è la risposta media da un campione di individui dalla città ma le dimensioni del campione su cui si basavano queste medie sono molto diverse:
Dal momento che le variabili predittive non hanno tutte lo stesso significato, in un certo senso, per ogni città, temo che il condizionamento su queste variabili in un modello di regressione come se fossero tutte "create uguali" potrebbe causare delle deduzioni fuorvianti.
C'è un nome per questo tipo di problema? Se è così, ci sono ricerche su come gestirlo?
Il mio pensiero è di trattarlo come una variabile predittiva misurata con errori e fare qualcosa in tal senso ma c'è un'eteroschedasticità negli errori di misurazione, quindi sarebbe molto complicato. Potrei pensare a questo nel modo sbagliato o potrebbe renderlo più complicato di quanto non sia, ma qualsiasi discussione qui sarebbe utile.