È buona norma standardizzare i dati in una regressione con dati panel / longitudinali?


16

In generale, standardizzo le mie variabili indipendenti nelle regressioni, al fine di confrontare correttamente i coefficienti (in questo modo hanno le stesse unità: deviazioni standard). Tuttavia, con i dati panel / longitudinali, non sono sicuro di come standardizzare i miei dati, soprattutto se valuto un modello gerarchico.

Per capire perché può essere un potenziale problema, supponi di avere individui misurati lungo t = 1 , ... , T periodi e hai misurato una variabile dipendente, y i , t e una variabile indipendente x i , t . Se si esegue una regressione di pooling completa, è possibile standardizzare i dati in questo modo: x . z = ( x - mean ( x ) ) / sd ( xi=1,,nt=1,,Tyi,txi,t , poiché non cambierà la statistica t. D'altra parte, se si adatta una regressione non aggregata, ovvero una regressione per ogni individuo, è necessario standardizzare i dati solo per individuo, non l'intero set di dati (nel codice R):x.z=(xmean(x))/sd(x)

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

Tuttavia, se si adatta un modello gerarchico semplice con un'intercettazione variabile da parte degli individui, si utilizza uno stimatore di contrazione, ovvero si sta valutando un modello tra regressione aggregata e non aggregata. Come devo standardizzare i miei dati? Usando tutti i dati come una regressione aggregata? Usando solo individui, come nel caso senza pool?

Risposte:


10

xx2x2

x


@Frank Harrell - buoni punti sui problemi associati alle condizioni che descrivi ma se uno ha tutte le variabili continue con scale diverse, allora la standardizzazione non è l'unico modo per confrontare le pendenze?
DQdlM,

1
@Frank, suppongo che dipenda dal tipo di modelli in esecuzione, ma la standardizzazione delle variabili predittive è spesso utile. Centrandoli significa che l'intercettazione diventa interpretabile come il risultato previsto medio e l'importanza relativa dei diversi predittori diventa più evidente. Di solito lascio da solo i predittori binari, ma a volte vale la pena considerare altre opzioni di ridimensionamento. Infine, in alcuni casi avere predittori con deviazioni standard selvaggiamente diverse può portare a problemi computazionali / di convergenza.
Michael Bishop,

2
Non sono chiaro su come tale standardizzazione aggiunga chiarezza piuttosto che sottrae da essa. Inoltre, la media non è la scelta ovvia per il centraggio (la modalità mediana? 43 ° percentile? La scelta della misura di dispersione è ancora più problematica) L'importanza relativa può essere giudicata in molti modi, ad esempio parzialeR2, parziale χ2, effetti covariati a intervalli inter-quartili, ... Inoltre, non ho trovato la standardizzazione utile dal punto di vista computazionale quando si usano routine matematiche moderne come quelle che R usa sotto il cofano. Kenny nota che la standardizzazione non è il modo di confrontare le piste.
Frank Harrell,

1
Se hai variabili binarie, non standardizzarle, solo una continua. Vedi questo articolo di Gelman (< stat.columbia.edu/~gelman/research/published/standardizing7.pdf >, che suggerisce di dividere le variabili per due deviazioni standard. In ogni caso, aiuta a raggiungere la convergenza se stai adattando un modello bayesiano.
Manoel Galdino,

E non vedo perché sarebbe meglio interpretare gli effetti sulla scala originale. L'effetto del PIL su una regressione logistica è difficile da interpretare guardando solo ai coefficienti, perché il PIL è molto più grande della scala di probabilità. Le interazioni sono meglio comprese con coefficienti standardizzati o variabili centrate. Infine, se haiX e X2, in questo caso non standardizzare.
Manoel Galdino,

0

Esiste un'alternativa alla standardizzazione per portare le variabili misurate con scale diverse nella stessa metrica. Si chiama Proportion of Maximum Scaling (POMS), e non si scherza con le distribuzioni multivariate come tende a fare la trasformazione z.

Todd Little raccomanda esplicitamente POMS sulla standardizzazione z nel suo libro sulla modellazione longitudinale dell'equazione strutturale. La trasformazione Z presenta ulteriori problemi quando si tratta di dati longitudinali, vedere qui: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.