Nota che l'assunto di linearità di cui stai parlando dice solo che la media condizionale di datoYi è una funzione lineareXi. Non è possibile utilizzare il valore diper verificare questa ipotesi.R2
Questo perché è semplicemente la correlazione al quadrato tra i valori osservati e previsti eR2 il valore del coefficiente di correlazione non determina in modo univoco la relazione tra e Y (lineare o altro)XY ed entrambi i seguenti due scenari sono possibili:
Discuterò ciascuno a turno:
(1) elevato ma l'assunzione di linearità è ancora errata in modo importante:R2 il trucco qui è manipolare il fatto che la correlazione è molto sensibile agli outlier . Supponiamo di avere predittori che sono generati da una distribuzione della miscela che è normale normale al 99 % delle volte e una massa in punti a M l'altro 1 % e una variabile di risposta che èX1,...,Xn99%M1%
Yi={ZiMif Xi≠Mif Xi=M
Zi∼N(μ,1)Mμμ=0,M=105XiYi
u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1
YiXiYiXiXi=M
R2XiYi
Yi=β0+β1Xi+εi
YiXiXivar(εi)=σ2β1R2
x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698
R2
Ri: Cosa fare quando l'assunzione di linearità non viene soddisfatta e anche trasformare i IV non aiuta? !!
Quando la non linearità è un problema, può essere utile esaminare i grafici dei residui rispetto a ciascun predittore: se esiste un modello evidente, ciò può indicare non linearità in quel predittore. Ad esempio, se questo diagramma rivela una relazione "a forma di scodella" tra i residui e il predittore, ciò può indicare un termine quadratico mancante in quel predittore. Altri schemi possono indicare una diversa forma funzionale. In alcuni casi, è possibile che tu non abbia provato a correggere la trasformazione o che il modello reale non sia lineare in nessuna versione trasformata delle variabili (sebbene possa essere possibile trovare un'approssimazione ragionevole).
R2