Diagnostica di collinearità problematica solo quando è incluso il termine di interazione

Ho registrato una regressione sulle contee statunitensi e sto verificando la collinearità nelle mie variabili "indipendenti". Belsley, Kuh e Welsch's Regression Diagnostics suggeriscono di esaminare l'indice delle condizioni e le proporzioni di decomposizione della varianza:

library(perturb)
## colldiag(, scale=TRUE) for model with interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09
1    1.000 0.000       0.000     0.000   0.000    0.001             0.002        0.003        0.002       0.002      0.001         0.000            
2    3.130 0.000       0.000     0.000   0.000    0.002             0.053        0.011        0.148       0.231      0.000         0.000            
3    3.305 0.000       0.000     0.000   0.000    0.000             0.095        0.072        0.351       0.003      0.000         0.000            
4    3.839 0.000       0.000     0.000   0.001    0.000             0.143        0.002        0.105       0.280      0.009         0.000            
5    5.547 0.000       0.002     0.000   0.000    0.050             0.093        0.592        0.084       0.005      0.002         0.000            
6    7.981 0.000       0.005     0.006   0.001    0.150             0.560        0.256        0.002       0.040      0.026         0.001            
7   11.170 0.000       0.009     0.003   0.000    0.046             0.000        0.018        0.003       0.250      0.272         0.035            
8   12.766 0.000       0.050     0.029   0.015    0.309             0.023        0.043        0.220       0.094      0.005         0.002            
9   18.800 0.009       0.017     0.003   0.209    0.001             0.002        0.001        0.047       0.006      0.430         0.041            
10  40.827 0.134       0.159     0.163   0.555    0.283             0.015        0.001        0.035       0.008      0.186         0.238            
11  76.709 0.855       0.759     0.796   0.219    0.157             0.013        0.002        0.004       0.080      0.069         0.683            

## colldiag(, scale=TRUE) for model without interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct
1    1.000 0.000       0.001     0.001   0.000    0.001             0.003        0.004        0.003       0.003      0.001        
2    2.988 0.000       0.000     0.001   0.000    0.002             0.030        0.003        0.216       0.253      0.000        
3    3.128 0.000       0.000     0.002   0.000    0.000             0.112        0.076        0.294       0.027      0.000        
4    3.630 0.000       0.002     0.001   0.001    0.000             0.160        0.003        0.105       0.248      0.009        
5    5.234 0.000       0.008     0.002   0.000    0.053             0.087        0.594        0.086       0.004      0.001        
6    7.556 0.000       0.024     0.039   0.001    0.143             0.557        0.275        0.002       0.025      0.035        
7   11.898 0.000       0.278     0.080   0.017    0.371             0.026        0.023        0.147       0.005      0.038        
8   13.242 0.000       0.001     0.343   0.006    0.000             0.000        0.017        0.129       0.328      0.553        
9   21.558 0.010       0.540     0.332   0.355    0.037             0.000        0.003        0.003       0.020      0.083        
10  50.506 0.989       0.148     0.199   0.620    0.393             0.026        0.004        0.016       0.087      0.279

?HH::vif suggerisce che i VIF> 5 sono problematici:

library(HH)
## vif() for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         8.378646         16.329881          1.653584          2.744314          1.885095          1.471123          1.436229          1.789454 
    elderly09_pct inc09_10k:unins09 
         1.547234         11.590162 

## vif() for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.859426          2.378138          1.628817          2.716702          1.882828          1.471102          1.404482          1.772352 
    elderly09_pct 
         1.545867

Considerando che la diagnostica di regressione di John Fox suggerisce di guardare alla radice quadrata del VIF:

library(car)
## sqrt(vif) for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         2.894589          4.041025          1.285917          1.656597          1.372987          1.212898          1.198428          1.337705 
    elderly09_pct inc09_10k:unins09 
         1.243879          3.404433 
## sqrt(vif) for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.363608          1.542121          1.276251          1.648242          1.372162          1.212890          1.185108          1.331297 
    elderly09_pct 
         1.243329

Nei primi due casi (in cui viene suggerito un netto taglio), il modello è problematico solo quando è incluso il termine di interazione.

Il modello con il termine di interazione è stato fino a questo punto la mia specifica preferita.

Ho due domande date questa stranezza dei dati:

Un termine di interazione peggiora sempre la collinearità dei dati?
Dato che le due variabili senza il termine di interazione non sono al di sopra della soglia, sto bene usando il modello con il termine di interazione. In particolare, il motivo per cui penso che questo potrebbe essere ok è che sto usando il metodo King, Tomz e Wittenberg (2000) per interpretare i coefficienti (modello binomiale negativo), dove generalmente mantengo gli altri coefficienti alla media, e poi interpretare cosa succede alle previsioni della mia variabile dipendente quando mi muovo inc09_10ke mi muovo unins09in modo indipendente e congiunto.

r multicollinearity vif variance-decomposition

— Ari B. Friedman
fonte

Risposte:

Sì, questo è generalmente il caso delle interazioni non centrate. Una rapida occhiata a ciò che accade alla correlazione di due variabili indipendenti e alla loro "interazione"

set.seed(12345)
a = rnorm(10000,20,2)
b = rnorm(10000,10,2)
cor(a,b)
cor(a,a*b)

> cor(a,b)
[1] 0.01564907
> cor(a,a*b)
[1] 0.4608877

E poi quando li centri:

c = a - 20
d = b - 10
cor(c,d)
cor(c,c*d)

> cor(c,d)
[1] 0.01564907
> cor(c,c*d)
[1] 0.001908758

Per inciso, lo stesso può accadere includendo termini polinomiali (cioè ) senza primo centramento. $X,~X^2,~...$

Quindi puoi provarlo con la tua coppia.

Quanto al perché il centraggio aiuta, ma torniamo alla definizione di covarianza

\begin{aligned} Cov (X, X Y) & = E [(X - E (X)) (X Y - E (X Y))] \\ = E [(X - μ_{X}) (X Y - μ_{X y})] \\ = E [X^{2} Y - X μ_{X y} - X Y μ_{X} + μ_{X} μ_{X y}] \\ = E [X^{2} Y] - E [X] μ_{X y} - E [X Y] μ_{X} + μ_{X} μ_{X y} \end{aligned}

$\begin{align} \text{Cov}(X,XY) &= E[(X-E(X))(XY-E(XY))] \\ &= E[(X-\mu_x)(XY-\mu_{xy})] \\ &= E[X^2Y-X\mu_{xy}-XY\mu_x+\mu_x\mu_{xy}] \\ &= E[X^2Y]-E[X]\mu_{xy}-E[XY]\mu_x+\mu_x\mu_{xy} \\ \end{align}$

Persino data l'indipendenza di X e Y

\begin{aligned} = E [X^{2}] E [Y] - μ_{X} μ_{X} μ_{y} - μ_{X} μ_{y} μ_{X} + μ_{X} μ_{X} μ_{y} \\ = (σ_{X}^{2} + μ_{X}^{2}) μ_{y} - μ_{X}^{2} μ_{y} \\ = σ_{X}^{2} μ_{y} \end{aligned}

$\begin{align} \qquad\qquad\qquad\, &= E[X^2]E[Y]-\mu_x\mu_x\mu_y-\mu_x\mu_y\mu_x+\mu_x\mu_x\mu_y \\ &= (\sigma_x^2+\mu_x^2)\mu_y-\mu_x^2\mu_y \\ &= \sigma_x^2\mu_y \\ \end{align}$

Questo non è direttamente correlato al tuo problema di regressione, poiché probabilmente non hai e completamente indipendenti e poiché la correlazione tra due variabili esplicative non porta sempre a problemi di multicollinearità nella regressione. Ma mostra come un'interazione tra due variabili indipendenti non centrate fa apparire la correlazione e che la correlazione potrebbe causare problemi di multicollinearità. $X$ $Y$

Intuitivamente mi, avente variabili non centrata interagiscono significa semplicemente che quando è grande, allora è inoltre sarà maggiore scala assoluta indipendentemente , e così e finiranno correlata, e similmente per . $X$ $XY$ $Y$ $X$ $XY$ $Y$

— affine
fonte

Interessante, grazie. Hai una spiegazione o una citazione del perché è importante il centraggio?

— Ari B. Friedman,

Penso che questa risposta non meriti tutta la generosità, ma mi piacerebbe dargli una mezza ricompensa. Non sono sicuro che ciò accada a meno che non abbia un secondo voto positivo: - /.

— Ari B. Friedman,

@ AriB.Friedman, non hai (esattamente) la possibilità di dare metà della taglia. È possibile non assegnare il premio (anche se sarà ancora hanno perso il rappresentante in entrambi i casi) e questo post sarà probabilmente liquidato automaticamente metà della taglia (si veda la relativa sezione della pagina di aiuto ). Tuttavia, perché questa risposta non merita la generosità? Affine è esattamente qui (+1).

— gung - Ripristina Monica

@gung Stavo cercando pre-modifica. Lo merita sicuramente ora. Grazie @Affine! Per quanto riguarda la parte di mezza taglia, la mia comprensione è che una >=risposta di +2 ottiene una mezza taglia se la taglia non viene assegnata manualmente.

— Ari B. Friedman,

@ AriB.Friedman, è vero, ma prima che io commentassi (e votassi, e anche qualcun altro), non aveva 2+ voti.

— gung - Ripristina Monica

Ho trovato utili le seguenti pubblicazioni su questo argomento:

Robinson & Schumacker (2009): Effetti dell'interazione: centratura, fattore di inflazione della varianza e problemi di interpretazione

"Gli effetti del ridimensionamento dei predittori sui coefficienti delle equazioni di regressione (soluzioni centrate rispetto a quelle non centrate e effetti di interazione di ordine superiore (interazioni a 3 vie; categoriali per effetti continui) sono stati meditatamente trattati da Aiken e West (1991). Il loro esempio mostra che la multicollinearità è notevole viene introdotto in un'equazione di regressione con un termine di interazione quando le variabili non sono centrate. "

Afshartous & Preston (2011): risultati chiave di modelli di interazione con centraggio

"Le motivazioni per l'impiego della centratura variabile comprendono una migliore interpretabilità dei coefficienti e una ridotta instabilità numerica per la stima associata alla multicollinearità."

Ovviamente anche Aiken e West (1991) trattano questo argomento, ma non ho il loro libro.

— colpetto
fonte