Ci sono due elementi nell'esempio di @Peter, che potrebbe essere utile districare:
(1) Specifiche errate del modello. I modelli
yio= β0+ β1Xio+ εio(1)
&
wio= γ0+ γ1zio+ ζio(2)
, dove &zi=√wio= yioXio--√ , non possono essere entrambi veri. Se riesprimi ciascuno in termini di risposta dell'altro, questi diventano non lineari nei parametri, con errori eteroschedastici.zio= xio--√
wio= β0z2io+ β1+ εioz2io-----------√(1)
yio= ( γ0X--√io+ γ1X--√io+ ζioX--√io)2(2)
Se si presume che sia una variabile casuale gaussiana indipendente da X , questo è un caso speciale del modello 1 in cui β 1 = 0 , e non dovresti usare il modello 2. Ma allo stesso modo se W si presume che sia un gaussiano casuale variabile indipendente da Z , non dovresti usare il Modello 1. Qualsiasi preferenza per un modello piuttosto che per l'altro deve venire dalla teoria sostanziale o dalla loro adattabilità ai dati.YXβ1= 0WZ
(2) Trasformazione della risposta. Se sapessi che & X sono variabili casuali gaussiane indipendenti, perché la relazione tra W & Z dovrebbe ancora sorprenderti o la chiameresti falsa? L'aspettativa condizionale di W può essere approssimata con il metodo delta:YXWZW
EYX--√= EY--√z≈ β0--√+ VarY8 β3 / 20z
È davvero una funzione di .z
Seguendo l'esempio ...
set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))


yXwzwzzw
Aldrich (2005), "Correlazioni autentiche e spurie in Pearson e Yule", Statistical Science , 10 , 4 fornisce una prospettiva storica interessante su questi temi.