Contraddizione significativa nella regressione lineare: test t significativo per un coefficiente vs statistica F complessiva non significativa

35

Sto adattando un modello di regressione lineare multipla tra 4 variabili categoriali (con 4 livelli ciascuna) e un output numerico. Il mio set di dati ha 43 osservazioni.

La regressione mi fornisce i seguenti valori dal test per ogni coefficiente di pendenza: . Pertanto, il coefficiente per il 4 ° predittore è significativo a livello di confidenza . $p$ $t$ $.15, .67, .27, .02$ $\alpha = .05$

D'altra parte, la regressione mi dà un valore da un test complessivo dell'ipotesi nulla che tutti i miei coefficienti di pendenza siano uguali a zero. Per il mio set di dati, questo valore è . $p$ $F$ $p$ $.11$

La mia domanda: come devo interpretare questi risultati? Quale valore dovrei usare e perché? Il coefficiente per la 4a variabile è significativamente diverso da a livello di confidenza ? $p$ $0$ $\alpha = .05$

Ho visto una questione connessa, e statistiche in una regressione , ma non c'era una situazione opposta: ad alta -test -Valori e basso -test -valore. Onestamente, non capisco bene perché avremmo bisogno di un test oltre a un test per vedere se i coefficienti di regressione lineare sono significativamente diversi da zero. $F$ $t$ $t$ $p$ $F$ $p$ $F$ $t$

— Leo
fonte

2

Se hai 4 variabili categoriali con 4 livelli ciascuna, dovresti avere 3 * 4 = 12 coefficienti per le tue variabili indipendenti (più l'intercettazione) ...

— boscovich

@andrea: ho deciso di trattarli come variabili numeriche.

— Leone

4

0,02 è a malapena significativo (soprattutto se si considera il fatto di avere cinque test in totale) e 0,11 non è molto elevato. Un'interpretazione generosa sarebbe che con un po 'più di potenza anche il test F complessivo sarebbe significativo (e forse anche il primo coefficiente). Un'interpretazione più conservativa è che non dovresti avere molta fiducia in nessuno di questi risultati (incluso il coefficiente con un valore di 0,02 p). Ad ogni modo, non dovresti leggere troppo nella differenza tra .02 e .11.

— Gala,

3

Per una discussione del caso opposto, puoi anche vedere qui: in che modo una regressione può essere significativa ma tutti i predittori non sono significativi , oltre alla domanda collegata sopra.

— gung - Ripristina Monica

37

Non sono sicuro che la multicollinearità sia ciò che sta succedendo qui. Certamente potrebbe esserlo, ma dalle informazioni fornite non posso concludere che non voglio iniziare da lì. La mia prima ipotesi è che questo potrebbe essere un problema di confronti multipli. Cioè, se esegui abbastanza test, qualcosa apparirà, anche se non c'è nulla lì.

Uno dei problemi su cui mi pongo è che il problema dei confronti multipli è sempre discusso in termini di esame di molti confronti a coppie - ad esempio, l'esecuzione di test t su ogni accoppiamento unico di livelli. (Per un trattamento umoristico di confronti multipli, guarda qui .) Questo lascia alle persone l'impressione che sia l'unico posto in cui si presenta questo problema. Ma questo non è semplicemente vero: il problema dei confronti multipli si manifesta ovunque. Ad esempio, se si esegue una regressione con 4 variabili esplicative, sussistono gli stessi problemi. In un esperimento ben progettato, gli IV possono essere ortogonali, ma le persone si preoccupano abitualmente di usare le correzioni di Bonferroni su insiemi di contrasti ortogonali a priori e non pensano due volte agli ANOVA fattoriali. A mio avviso, ciò è incoerente.

Il test F globale è quello che viene chiamato un test 'simultaneo'. Ciò verifica se tutti i predittori non sono correlati alla variabile di risposta. Il test simultaneo fornisce una certa protezione contro il problema di confronti multipli senza dover percorrere la rotta di Bonferroni che perde potenza. Sfortunatamente, la mia interpretazione di ciò che riferisci è che hai un risultato nullo.

Diverse cose mitigano questa interpretazione. Innanzitutto, con solo 43 dati, quasi sicuramente non hai molto potere. È possibile che ci sia un effetto reale, ma non puoi risolverlo senza più dati. In secondo luogo, come sia @andrea che @Dimitriy, mi preoccupo dell'adeguatezza del trattamento delle variabili categoriali a 4 livelli come numeriche. Questo potrebbe non essere appropriato e potrebbe avere un numero qualsiasi di effetti, inclusa la riduzione della capacità di rilevare ciò che è realmente lì. Infine, non sono sicuro che i test di significatività siano importanti tanto quanto la gente crede. Una $p$ di $.11$ è un po ' bassa; c'è davvero qualcosa da fare lì? può essere! chi lo sa? —non esiste una "linea brillante" a 0,05 che delimita gli effetti reali dal semplice aspetto.

— gung - Ripristina Monica
fonte

24

Vorrei suggerire che questo fenomeno (di un test complessivo non significativo nonostante una variabile individuale significativa) possa essere inteso come una sorta di "effetto di mascheramento" aggregato e che sebbene possa plausibilmente derivare da variabili esplicative multicollineari, non è necessario questo a tutti. Si scopre anche che non è dovuto a molteplici aggiustamenti del confronto. Quindi questa risposta sta aggiungendo alcune qualifiche alle risposte che sono già apparse, che al contrario suggeriscono che sia la multicollinearità che i confronti multipli dovrebbero essere considerati come i colpevoli.

Per stabilire la plausibilità di queste asserzioni, generiamo una raccolta di variabili perfettamente ortogonali - il più non collineare possibile - e una variabile dipendente che è esplicitamente determinata esclusivamente dalla prima delle spiegazioni (più una buona quantità di errore casuale indipendente da tutto il resto). In Rquesto può essere fatto (riproducibilmente, se si desidera sperimentare) come

set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)

Non è importante che le variabili esplicative siano binarie; ciò che conta è la loro ortogonalità, che possiamo verificare per assicurarci che il codice funzioni come previsto, che può essere fatto controllando le loro correlazioni. In effetti, la matrice di correlazione è interessante : i piccoli coefficienti suggeriscono che yha poco a che fare con nessuna delle variabili tranne la prima (che è di progettazione) e gli zeri off-diagonali confermano l'ortogonalità delle variabili esplicative:

> cor(cbind(x,y))
     Var1  Var2  Var3   Var4  Var5      y
Var1 1.00 0.000 0.000  0.000  0.00  0.486
Var2 0.00 1.000 0.000  0.000  0.00  0.088
Var3 0.00 0.000 1.000  0.000  0.00  0.044
Var4 0.00 0.000 0.000  1.000  0.00 -0.014
Var5 0.00 0.000 0.000  0.000  1.00 -0.167
y    0.49 0.088 0.044 -0.014 -0.17  1.000

Eseguiamo una serie di regressioni , usando solo la prima variabile, quindi le prime due e così via. Per brevità e facile confronto, in ognuna mostro solo la linea per la prima variabile e il test F complessivo:

>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))

#              Estimate Std. Error t value Pr(>|t|)   
1  x[, 1:i]       0.898      0.294    3.05   0.0048 **
F-statistic: 9.29 on 1 and 30 DF,  p-value: 0.00478 

2  x[, 1:i]Var1    0.898      0.298    3.01   0.0053 **
F-statistic: 4.68 on 2 and 29 DF,  p-value: 0.0173 

3  x[, 1:i]Var1   0.8975     0.3029    2.96   0.0062 **
F-statistic: 3.05 on 3 and 28 DF,  p-value: 0.0451 

4  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0072 **
F-statistic: 2.21 on 4 and 27 DF,  p-value: 0.095 

5  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0073 **
F-statistic: 1.96 on 5 and 26 DF,  p-value: 0.118

Guarda come (a) il significato della prima variabile cambia a malapena, (a ') la prima variabile rimane significativa (p <.05) anche quando si aggiusta per confronti multipli ( ad esempio , applicare Bonferroni moltiplicando il valore p nominale per il numero di variabili esplicative), (b) il coefficiente della prima variabile cambia a malapena, ma (c) la significatività complessiva cresce esponenzialmente, gonfiandosi rapidamente a un livello non significativo.

Lo interpreto come una dimostrazione del fatto che l' inclusione di variabili esplicative che sono in gran parte indipendenti dalla variabile dipendente può "mascherare" il valore p complessivo della regressione. Quando le nuove variabili sono ortogonali a quelle esistenti e alla variabile dipendente, non cambieranno i singoli valori p. (I piccoli cambiamenti visti qui sono perché l'errore casuale aggiunto yè, per caso, leggermente correlato con tutte le altre variabili.) Una lezione da trarre da questo è che la parsimonia è preziosa : l'uso di tutte le variabili necessarie può rafforzare il significato di i risultati.

Sto Non dicendo che questo è necessariamente accadendo per il set di dati in questione, di cui poco è stato divulgato. Ma la consapevolezza che questo effetto di mascheramento può verificarsi dovrebbe informare la nostra interpretazione dei risultati e le nostre strategie per la selezione delle variabili e la costruzione del modello.

— whuber
fonte

+1, sono d'accordo con questa analisi. FWIW, questa è la spiegazione che stavo suggerendo (forse non bene) nella mia discussione sul potere nella mia risposta all'altra domanda . Ho 1 domanda sulla tua versione qui, perché usi 32 come media del tuo termine di errore? È un errore di battitura o è importante in qualche modo?

— gung - Ripristina Monica

@gung Dove vedi 32? Se ti riferisci a rnorm(2^p, sd=2), tieni presente che il primo argomento è il numero di termini, non la media. La media per impostazione predefinita è zero e pertanto non è stata specificata in modo esplicito.

— whuber

rnorm()

N (μ, σ)

$\mathcal N(\mu, \sigma)$

@gung Sono grato per l'opportunità di chiarire il codice e quindi ho modificato la linea offensiva.

— whuber

11

Accade spesso che ciò accada quando si riscontra un elevato grado di collinearità tra le variabili esplicative. L'ANOVA F è un test comune che tutti i regressori sono congiuntamente non informativi. Quando le tue X contengono informazioni simili, il modello non può attribuire il potere esplicativo a un regressore o a un altro, ma la loro combinazione può spiegare gran parte della variazione nella variabile di risposta.

$x_{1}$ $y$

— Dimitriy V. Masterov
fonte

Se la collinearità è un problema, allora avrai errori standard elevati e forse coefficienti plausibilmente grandi, forse anche con segni sbagliati. Per assicurarsi che questo sia ciò che sta accadendo, calcolare i fattori di inflazione della varianza (VIF) dopo la regressione. Una regola empirica ragionevole è che la collinearità è un problema se il VIF più grande è maggiore di 10. In tal caso, hai davvero due opzioni qui. Uno è ri-specificare il modello per ridurre la dipendenza quasi lineare facendo cadere alcune delle variabili. Il secondo è quello di ottenere un campione più grande e / o migliore (meno omogeneo).

— Dimitriy V. Masterov

1

(+1) Questa spiegazione è buona, ma non è necessario attribuire il fenomeno alla multicollinearità: la distinzione chiave è tra congiuntamente informativo e individualmente informativo. L'inclusione di regressori non correlati aggiuntivi (che evita qualsiasi multicollinearità) abbassa il primo lasciando invariato il secondo.

— whuber