Ho un modello lineare classico, con 5 possibili regressori. Non sono correlati tra loro e hanno una correlazione piuttosto bassa con la risposta. Sono arrivato a un modello in cui 3 dei regressori hanno coefficienti significativi per la loro statistica t (p <0,05). L'aggiunta di una o entrambe le restanti 2 variabili fornisce valori p> 0,05 per la statistica t, per le variabili aggiunte. Questo mi porta a credere che il modello a 3 variabili sia "migliore".
Tuttavia, usando il comando anova (a, b) in R dove a è il modello con 3 variabili eb è il modello completo, il valore p per la statistica F è <0,05, il che mi dice di preferire il modello completo rispetto alla variabile 3 modello. Come posso conciliare queste apparenti contraddizioni?
Grazie PS Modifica: qualche ulteriore sfondo. Si tratta di compiti a casa, quindi non pubblicherò i dettagli, ma non ci vengono forniti dettagli di ciò che rappresentano i regressori: sono solo numerati da 1 a 5. Ci viene chiesto di "derivare un modello appropriato, fornendo giustificazione".