Diciamo che ho i seguenti dati e sto eseguendo un modello di regressione:
df=data.frame(income=c(5,3,47,8,6,5),
won=c(0,0,1,1,1,0),
age=c(18,18,23,50,19,39),
home=c(0,0,1,0,0,1))
Da un lato, eseguo un modello lineare per prevedere sul reddito:
md1 = lm(income ~ age + home + home, data=df)
In secondo luogo, eseguo un modello logit per prevedere la variabile vinta:
md2 = glm(factor(won) ~ age + home, data=df, family=binomial(link="logit"))
Per entrambi i modelli, mi chiedo come sia possibile generare una tabella o un frame di dati con la categoria di risposta del predittore, il valore adattato e il valore previsto del modello.
Quindi, per il modello lineare, qualcosa del tipo:
age fitted_income predicted_income
18 3 5
23 3 3
50 4 2
19 5 5
39 6 4
home fitted_income predicted_income
0 5 6
1 3 9
O forse dovrebbe essere per ogni punto dati. Quindi per il punto dati x_i, i valori previsti e previsti sono:
id age fitted_income predicted_income
1 18 3 5
2 23 3 3
3 50 4 2
4 19 5 5
5 39 6 4
Da un punto di vista statistico, un'impresa del genere è utile? Perché o perché no?
Come si può fare in R? (ho guardato i nomi (md1) e ho trovato quello che posso estrarre dal modello, ma non sono passato oltre)
Grazie!
residualscomando in R. Utilizzare cbindper unirli al frame di dati originale.