Ci vuole pochissima correlazione tra le variabili indipendenti per causare questo.
Per capire perché, prova quanto segue:
Disegna 50 serie di dieci vettori con coefficienti ii standard normale.(x1,x2,…,x10)
Calcola per . Questo rende individualmente standard normale ma con alcune correlazioni tra loro.yi=(xi+xi+1)/2–√i=1,2,…,9yi
Calcola . Nota che .w=x1+x2+⋯+x10w=2–√(y1+y3+y5+y7+y9)
Aggiungi qualche errore indipendente normalmente distribuito a . Con una piccola sperimentazione ho scoperto che con funziona abbastanza bene. Pertanto, è la somma di più qualche errore. E 'anche la somma di alcuni del più lo stesso errore.wz=w+εε∼N(0,6)zxiyi
Considereremo le variabili indipendenti e la variabile dipendente.yiz
Ecco una matrice scatterplot di uno di questi set di dati, con lungo la parte superiore e sinistra e procede in ordine.zyi
Le correlazioni attese tra eyiyj1/2|i−j|=10
zyi
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 9, 40) = 4.57
Model | 1684.15999 9 187.128887 Prob > F = 0.0003
Residual | 1636.70545 40 40.9176363 R-squared = 0.5071
-------------+------------------------------ Adj R-squared = 0.3963
Total | 3320.86544 49 67.7727641 Root MSE = 6.3967
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.184007 1.264074 1.73 0.092 -.3707815 4.738795
y2 | 1.537829 1.809436 0.85 0.400 -2.119178 5.194837
y3 | 2.621185 2.140416 1.22 0.228 -1.704757 6.947127
y4 | .6024704 2.176045 0.28 0.783 -3.795481 5.000421
y5 | 1.692758 2.196725 0.77 0.445 -2.746989 6.132506
y6 | .0290429 2.094395 0.01 0.989 -4.203888 4.261974
y7 | .7794273 2.197227 0.35 0.725 -3.661333 5.220188
y8 | -2.485206 2.19327 -1.13 0.264 -6.91797 1.947558
y9 | 1.844671 1.744538 1.06 0.297 -1.681172 5.370514
_cons | .8498024 .9613522 0.88 0.382 -1.093163 2.792768
------------------------------------------------------------------------------
La statistica F è altamente significativa, ma nessuna delle variabili indipendenti lo è, anche senza alcuna correzione per tutte e 9.
zyi
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 5, 44) = 7.77
Model | 1556.88498 5 311.376997 Prob > F = 0.0000
Residual | 1763.98046 44 40.0904649 R-squared = 0.4688
-------------+------------------------------ Adj R-squared = 0.4085
Total | 3320.86544 49 67.7727641 Root MSE = 6.3317
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.943948 .8138525 3.62 0.001 1.303736 4.58416
y3 | 3.403871 1.080173 3.15 0.003 1.226925 5.580818
y5 | 2.458887 .955118 2.57 0.013 .533973 4.383801
y7 | -.3859711 .9742503 -0.40 0.694 -2.349443 1.577501
y9 | .1298614 .9795983 0.13 0.895 -1.844389 2.104112
_cons | 1.118512 .9241601 1.21 0.233 -.7440107 2.981034
------------------------------------------------------------------------------
Alcune di queste variabili sono estremamente significative, anche con un aggiustamento di Bonferroni. (C'è molto altro che si può dire guardando questi risultati, ma ci porterebbe via dal punto principale.)
zy2,y4,y6,y8z
yi
Una conclusione che possiamo trarre da questo è che quando in un modello sono incluse troppe variabili possono mascherare quelle veramente significative. Il primo segno di ciò è la statistica F complessiva altamente significativa accompagnata da test t non così significativi per i singoli coefficienti. (Anche quando alcune delle variabili sono singolarmente significative, ciò non significa automaticamente che le altre non lo siano. Questo è uno dei difetti di base delle strategie di regressione graduale: cadono vittime di questo problema di mascheramento.) Per inciso, i fattori di inflazione della varianzanel primo intervallo di regressione da 2,55 a 6,09 con una media di 4,79: proprio al limite della diagnosi di multicollinearità secondo le regole empiriche più conservative; ben al di sotto della soglia in base ad altre regole (dove 10 è un limite superiore).