Vorrei suggerire che questo fenomeno (di un test complessivo non significativo nonostante una variabile individuale significativa) possa essere inteso come una sorta di "effetto di mascheramento" aggregato e che sebbene possa plausibilmente derivare da variabili esplicative multicollineari, non è necessario questo a tutti. Si scopre anche che non è dovuto a molteplici aggiustamenti del confronto. Quindi questa risposta sta aggiungendo alcune qualifiche alle risposte che sono già apparse, che al contrario suggeriscono che sia la multicollinearità che i confronti multipli dovrebbero essere considerati come i colpevoli.
Per stabilire la plausibilità di queste asserzioni, generiamo una raccolta di variabili perfettamente ortogonali - il più non collineare possibile - e una variabile dipendente che è esplicitamente determinata esclusivamente dalla prima delle spiegazioni (più una buona quantità di errore casuale indipendente da tutto il resto). In Rquesto può essere fatto (riproducibilmente, se si desidera sperimentare) come
set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)
Non è importante che le variabili esplicative siano binarie; ciò che conta è la loro ortogonalità, che possiamo verificare per assicurarci che il codice funzioni come previsto, che può essere fatto controllando le loro correlazioni. In effetti, la matrice di correlazione è interessante : i piccoli coefficienti suggeriscono che yha poco a che fare con nessuna delle variabili tranne la prima (che è di progettazione) e gli zeri off-diagonali confermano l'ortogonalità delle variabili esplicative:
> cor(cbind(x,y))
Var1 Var2 Var3 Var4 Var5 y
Var1 1.00 0.000 0.000 0.000 0.00 0.486
Var2 0.00 1.000 0.000 0.000 0.00 0.088
Var3 0.00 0.000 1.000 0.000 0.00 0.044
Var4 0.00 0.000 0.000 1.000 0.00 -0.014
Var5 0.00 0.000 0.000 0.000 1.00 -0.167
y 0.49 0.088 0.044 -0.014 -0.17 1.000
Eseguiamo una serie di regressioni , usando solo la prima variabile, quindi le prime due e così via. Per brevità e facile confronto, in ognuna mostro solo la linea per la prima variabile e il test F complessivo:
>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))
# Estimate Std. Error t value Pr(>|t|)
1 x[, 1:i] 0.898 0.294 3.05 0.0048 **
F-statistic: 9.29 on 1 and 30 DF, p-value: 0.00478
2 x[, 1:i]Var1 0.898 0.298 3.01 0.0053 **
F-statistic: 4.68 on 2 and 29 DF, p-value: 0.0173
3 x[, 1:i]Var1 0.8975 0.3029 2.96 0.0062 **
F-statistic: 3.05 on 3 and 28 DF, p-value: 0.0451
4 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0072 **
F-statistic: 2.21 on 4 and 27 DF, p-value: 0.095
5 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0073 **
F-statistic: 1.96 on 5 and 26 DF, p-value: 0.118
Guarda come (a) il significato della prima variabile cambia a malapena, (a ') la prima variabile rimane significativa (p <.05) anche quando si aggiusta per confronti multipli ( ad esempio , applicare Bonferroni moltiplicando il valore p nominale per il numero di variabili esplicative), (b) il coefficiente della prima variabile cambia a malapena, ma (c) la significatività complessiva cresce esponenzialmente, gonfiandosi rapidamente a un livello non significativo.
Lo interpreto come una dimostrazione del fatto che l' inclusione di variabili esplicative che sono in gran parte indipendenti dalla variabile dipendente può "mascherare" il valore p complessivo della regressione. Quando le nuove variabili sono ortogonali a quelle esistenti e alla variabile dipendente, non cambieranno i singoli valori p. (I piccoli cambiamenti visti qui sono perché l'errore casuale aggiunto yè, per caso, leggermente correlato con tutte le altre variabili.) Una lezione da trarre da questo è che la parsimonia è preziosa : l'uso di tutte le variabili necessarie può rafforzare il significato di i risultati.
Sto Non dicendo che questo è necessariamente accadendo per il set di dati in questione, di cui poco è stato divulgato. Ma la consapevolezza che questo effetto di mascheramento può verificarsi dovrebbe informare la nostra interpretazione dei risultati e le nostre strategie per la selezione delle variabili e la costruzione del modello.