Ho una domanda che penso sarà abbastanza semplice per molti utenti.
Sto usando modelli di regressione lineare per (i) studiare la relazione tra diverse variabili esplicative e la mia variabile di risposta e (ii) prevedere la mia variabile di risposta usando le variabili esplicative.
Una particolare variabile esplicativa X sembra avere un impatto significativo sulla mia variabile di risposta. Per testare il valore aggiunto di questa variabile esplicativa X ai fini delle previsioni fuori campione della mia variabile di risposta ho usato due modelli: modello (a) che utilizzava tutte le variabili esplicative e modello (b) che utilizzava tutte le variabili eccetto la variabile X. Per entrambi i modelli riporto esclusivamente le prestazioni fuori campione. Sembra che entrambi i modelli abbiano prestazioni quasi identiche. In altre parole, l'aggiunta della variabile esplicativa X non migliora le previsioni fuori campione. Nota che ho anche usato il modello (a), cioè il modello con tutte le variabili esplicative, per scoprire che la variabile esplicativa X ha un impatto significativo sulla mia variabile di risposta.
La mia domanda ora è: come interpretare questa scoperta? La conclusione semplice è che, anche se la variabile X sembra influenzare in modo significativo la mia variabile di risposta usando modelli inferenziali, non migliora le previsioni fuori campione. Tuttavia, ho difficoltà a spiegare ulteriormente questa scoperta. Come può essere possibile e quali sono alcune spiegazioni per questo risultato?
Grazie in anticipo!
Informazioni extra: con "influenza notevole" intendo che 0 non è incluso nell'intervallo di densità posteriore più alto del 95% della stima dei parametri (sto usando un approccio bayesiano). In termini frequentistici ciò corrisponde approssimativamente ad avere un valore di p inferiore a 0,05. Sto usando solo priori diffusi (non informativi) per tutti i parametri dei miei modelli. I miei dati hanno una struttura longitudinale e contengono circa 7000 osservazioni in totale. Per le previsioni fuori campione ho usato il 90% dei dati per adattarmi ai miei modelli e il 10% dei dati per valutare i modelli utilizzando più repliche. Cioè, ho eseguito la suddivisione del test del treno più volte e alla fine ho riportato le metriche delle prestazioni medie.