In generale, standardizzo le mie variabili indipendenti nelle regressioni, al fine di confrontare correttamente i coefficienti (in questo modo hanno le stesse unità: deviazioni standard). Tuttavia, con i dati panel / longitudinali, non sono sicuro di come standardizzare i miei dati, soprattutto se valuto un modello gerarchico.
Per capire perché può essere un potenziale problema, supponi di avere individui misurati lungo t = 1 , ... , T periodi e hai misurato una variabile dipendente, y i , t e una variabile indipendente x i , t . Se si esegue una regressione di pooling completa, è possibile standardizzare i dati in questo modo: x . z = ( x - mean ( x ) ) / sd ( x , poiché non cambierà la statistica t. D'altra parte, se si adatta una regressione non aggregata, ovvero una regressione per ogni individuo, è necessario standardizzare i dati solo per individuo, non l'intero set di dati (nel codice R):
for (i in 1:n) {
for ( t in 1:T) x.z[i] = (x[i,t] - mean(x[i,]))/sd(x[i,])
}
Tuttavia, se si adatta un modello gerarchico semplice con un'intercettazione variabile da parte degli individui, si utilizza uno stimatore di contrazione, ovvero si sta valutando un modello tra regressione aggregata e non aggregata. Come devo standardizzare i miei dati? Usando tutti i dati come una regressione aggregata? Usando solo individui, come nel caso senza pool?