Standardizzazione di variabili e collinearità


10

La collinearità può comportare alcuni problemi in vari tipi di problemi di regressione. In particolare, può fare in modo che le stime dei parametri abbiano una varianza elevata e siano instabili.

Sono stati proposti vari metodi per far fronte a questo, tra cui la regressione della cresta, la regressione parziale dei minimi quadrati, la regressione dei componenti principali, la caduta delle variabili e l'ottenimento di più dati.

Un metodo controverso è la standardizzazione o il ridimensionamento delle variabili indipendenti, con vari esperti che affermano che è un'idea buona (ad esempio Garcia) o cattiva (ad esempio Belsley). Il problema di Belsley sembra essere (in termini non tecnici) che cambiare i IV spinge semplicemente il problema sotto il tappeto. Ma altri esperti sembrano non essere d'accordo. E gli autori tendono a scaldarsi piuttosto nel difendere le proprie posizioni.

Quando ho fatto la mia tesi di laurea (sulla diagnostica della collinearità) ho trovato convincenti gli argomenti di Belsley, ma è stato tanto tempo fa (mi sono laureato nel 1999).

Sto cercando una guida esperta o qualsiasi articolo di revisione corrente che sia imparziale.


3
Non ho riferimenti moderni per te - la mia autorità di riferimento è ancora Belsley Kuh & Welsch 1981 - ma posso dire che la recente esperienza nella correzione di alcuni software di regressione mi ha convinto che in effetti esiste un valore in una standardizzazione preliminare. Nell'applicazione, una variabile era il tempo che, in questo Rquadro, è rappresentato in pochi secondi dall'inizio del 1970. In quanto tale, tendeva ad essere di nove ordini di grandezza maggiore di tutte le covariate. La semplice standardizzazione del tempo ha risolto gravi problemi in virgola mobile che si verificano nell'ottimizzatore di probabilità.
whuber

6
Concettualmente (non numericamente), penso ancora che Arthur Goldberger sia stato esatto: "I testi di Econometria dedicano molte pagine al problema della multicollinearità nella regressione multipla, ma dicono poco sul problema strettamente analogo delle piccole dimensioni del campione nella stima di una media univariata. Forse tale squilibrio è attribuibile alla mancanza di un nome polisillabico esotico per "piccola dimensione del campione". In tal caso, possiamo rimuovere tale impedimento introducendo il termine micronumerosità "
CloseToC

1
@Peter Flom: Coerentemente con il commento di Whuber, ricordo (molto) vagamente che standardizzare anche solo facendo in modo che i predittori abbiano zero significati ha aiutato molto.
mlofton,

Risposte:


4

Non era così chiaro per me che tipo di standardizzazione intendesse e, mentre cercavo la storia, ho raccolto due riferimenti interessanti.

Questo recente articolo presenta una panoramica storica dell'introduzione:

García, J., Salmerón, R., García, C., & López Martín, MDM (2016). Standardizzazione delle variabili e diagnostica della collinearità nella regressione della cresta. Revisione statistica internazionale, 84 (2), 245-266

Ho trovato un altro articolo interessante che asserisce che la standardizzazione o la centratura non ha alcun effetto.

Echambadi, R., & Hess, JD (2007). Il centramento della media non allevia i problemi di collinearità nei modelli di regressione multipla moderata. Marketing Science, 26 (3), 438-445.


Per me questa critica sembra un po 'come perdere il punto sull'idea di centrare.

L'unica cosa che Echambadi e Hess mostrano è che i modelli sono equivalenti e che puoi esprimere i coefficienti del modello centrato in termini di coefficienti del modello non centrato e viceversa (con conseguente varianza / errore simili dei coefficienti ).

Il risultato di Echambadi e Hess è un po 'banale e credo che questo (quelle relazioni ed equivalenze tra i coefficienti) non siano dichiarate false da nessuno. Nessuno ha affermato che quelle relazioni tra i coefficienti non fossero vere. E non è il punto di centrare le variabili.

Il punto del centraggio è che nei modelli con termini lineari e quadratici è possibile scegliere diverse scale di coordinate in modo da finire a lavorare in un frame che non ha o meno correlazione tra le variabili. Supponiamo che tu voglia esprimere l'effetto del tempo su qualche variabile e desideri farlo in un periodo espresso in termini di anni d.C., dal 1998 al 2018. In quel caso, ciò che la tecnica di centraggio significa risolvere è chetY

"Se esprimi l'accuratezza dei coefficienti per le dipendenze lineari e quadratiche nel tempo, allora avranno più varianza quando usi il tempo che va dal 1998 al 2018 invece di un tempo centrato compreso tra -10 e 10" .tt

Y=a+bt+ct2

contro

Y=a+b(tT)+c(tT)2

Naturalmente, questi due modelli sono equivalenti e invece di centrare è possibile ottenere lo stesso risultato esatto (e quindi lo stesso errore dei coefficienti stimati) calcolando i coefficienti come

a=abT+cT2b=b2cTc=c

anche quando fai ANOVA o usi espressioni come allora non ci saranno differenze.R2

Tuttavia, questo non è affatto il punto di centramento della media. Il punto di media-centratura è che a volte si vuole comunicare i coefficienti ed i loro intervalli di varianza / accuratezza o fiducia stimati, e per quei casi non importa quanto il modello è espresso.

Esempio: un fisico desidera esprimere alcune relazioni sperimentali per alcuni parametri X come funzione quadratica della temperatura.

  T   X
  298 1230
  308 1308
  318 1371
  328 1470
  338 1534
  348 1601
  358 1695
  368 1780
  378 1863
  388 1940
  398 2047

non sarebbe meglio segnalare gli intervalli del 95% per coefficienti simili

                 2.5 %      97.5 %

(Intercept)      1602       1621
T-348               7.87       8.26
(T-348)^2           0.0029     0.0166

invece di

                  2.5 %     97.5 %

(Intercept)       -839       816
T                   -3.52      6.05
T^2                  0.0029    0.0166

In quest'ultimo caso i coefficienti saranno espressi da margini di errore apparentemente elevati (ma senza dire nulla sull'errore nel modello) e inoltre la correlazione tra la distribuzione dell'errore non sarà chiara (nel primo caso l'errore in i coefficienti non saranno correlati).

Se uno afferma, come Echambadi e Hess, che le due espressioni sono solo equivalenti e che il centraggio non ha importanza, allora dovremmo (di conseguenza usando argomenti simili) affermare che le espressioni per i coefficienti del modello (quando non c'è intercettazione naturale e il la scelta è arbitraria) in termini di intervalli di confidenza o errori standard non hanno mai senso.

In questa domanda / risposta viene mostrata un'immagine che presenta anche questa idea di come gli intervalli di confidenza al 95% non diano molto sulla certezza dei coefficienti (almeno non intuitivamente) quando gli errori nelle stime dei coefficienti sono correlati.

Immagine


Grazie! Avevo visto Garcia ma non l'altro articolo che hai citato.
Peter Flom
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.