Vorrei suggerire che questo fenomeno (di un test complessivo non significativo nonostante una variabile individuale significativa) possa essere inteso come una sorta di "effetto di mascheramento" aggregato e che sebbene possa plausibilmente derivare da variabili esplicative multicollineari, non è necessario questo a tutti. Si scopre anche che non è dovuto a molteplici aggiustamenti del confronto. Quindi questa risposta sta aggiungendo alcune qualifiche alle risposte che sono già apparse, che al contrario suggeriscono che sia la multicollinearità che i confronti multipli dovrebbero essere considerati come i colpevoli.
Per stabilire la plausibilità di queste asserzioni, generiamo una raccolta di variabili perfettamente ortogonali - il più non collineare possibile - e una variabile dipendente che è esplicitamente determinata esclusivamente dalla prima delle spiegazioni (più una buona quantità di errore casuale indipendente da tutto il resto). In R
questo può essere fatto (riproducibilmente, se si desidera sperimentare) come
set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)
Non è importante che le variabili esplicative siano binarie; ciò che conta è la loro ortogonalità, che possiamo verificare per assicurarci che il codice funzioni come previsto, che può essere fatto controllando le loro correlazioni. In effetti, la matrice di correlazione è interessante : i piccoli coefficienti suggeriscono che y
ha poco a che fare con nessuna delle variabili tranne la prima (che è di progettazione) e gli zeri off-diagonali confermano l'ortogonalità delle variabili esplicative:
> cor(cbind(x,y))
Var1 Var2 Var3 Var4 Var5 y
Var1 1.00 0.000 0.000 0.000 0.00 0.486
Var2 0.00 1.000 0.000 0.000 0.00 0.088
Var3 0.00 0.000 1.000 0.000 0.00 0.044
Var4 0.00 0.000 0.000 1.000 0.00 -0.014
Var5 0.00 0.000 0.000 0.000 1.00 -0.167
y 0.49 0.088 0.044 -0.014 -0.17 1.000
Eseguiamo una serie di regressioni , usando solo la prima variabile, quindi le prime due e così via. Per brevità e facile confronto, in ognuna mostro solo la linea per la prima variabile e il test F complessivo:
>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))
# Estimate Std. Error t value Pr(>|t|)
1 x[, 1:i] 0.898 0.294 3.05 0.0048 **
F-statistic: 9.29 on 1 and 30 DF, p-value: 0.00478
2 x[, 1:i]Var1 0.898 0.298 3.01 0.0053 **
F-statistic: 4.68 on 2 and 29 DF, p-value: 0.0173
3 x[, 1:i]Var1 0.8975 0.3029 2.96 0.0062 **
F-statistic: 3.05 on 3 and 28 DF, p-value: 0.0451
4 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0072 **
F-statistic: 2.21 on 4 and 27 DF, p-value: 0.095
5 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0073 **
F-statistic: 1.96 on 5 and 26 DF, p-value: 0.118
Guarda come (a) il significato della prima variabile cambia a malapena, (a ') la prima variabile rimane significativa (p <.05) anche quando si aggiusta per confronti multipli ( ad esempio , applicare Bonferroni moltiplicando il valore p nominale per il numero di variabili esplicative), (b) il coefficiente della prima variabile cambia a malapena, ma (c) la significatività complessiva cresce esponenzialmente, gonfiandosi rapidamente a un livello non significativo.
Lo interpreto come una dimostrazione del fatto che l' inclusione di variabili esplicative che sono in gran parte indipendenti dalla variabile dipendente può "mascherare" il valore p complessivo della regressione. Quando le nuove variabili sono ortogonali a quelle esistenti e alla variabile dipendente, non cambieranno i singoli valori p. (I piccoli cambiamenti visti qui sono perché l'errore casuale aggiunto y
è, per caso, leggermente correlato con tutte le altre variabili.) Una lezione da trarre da questo è che la parsimonia è preziosa : l'uso di tutte le variabili necessarie può rafforzare il significato di i risultati.
Sto Non dicendo che questo è necessariamente accadendo per il set di dati in questione, di cui poco è stato divulgato. Ma la consapevolezza che questo effetto di mascheramento può verificarsi dovrebbe informare la nostra interpretazione dei risultati e le nostre strategie per la selezione delle variabili e la costruzione del modello.