Una '' variabile significativa '' che non migliora le previsioni fuori campione: come interpretare?


10

Ho una domanda che penso sarà abbastanza semplice per molti utenti.

Sto usando modelli di regressione lineare per (i) studiare la relazione tra diverse variabili esplicative e la mia variabile di risposta e (ii) prevedere la mia variabile di risposta usando le variabili esplicative.

Una particolare variabile esplicativa X sembra avere un impatto significativo sulla mia variabile di risposta. Per testare il valore aggiunto di questa variabile esplicativa X ai fini delle previsioni fuori campione della mia variabile di risposta ho usato due modelli: modello (a) che utilizzava tutte le variabili esplicative e modello (b) che utilizzava tutte le variabili eccetto la variabile X. Per entrambi i modelli riporto esclusivamente le prestazioni fuori campione. Sembra che entrambi i modelli abbiano prestazioni quasi identiche. In altre parole, l'aggiunta della variabile esplicativa X non migliora le previsioni fuori campione. Nota che ho anche usato il modello (a), cioè il modello con tutte le variabili esplicative, per scoprire che la variabile esplicativa X ha un impatto significativo sulla mia variabile di risposta.

La mia domanda ora è: come interpretare questa scoperta? La conclusione semplice è che, anche se la variabile X sembra influenzare in modo significativo la mia variabile di risposta usando modelli inferenziali, non migliora le previsioni fuori campione. Tuttavia, ho difficoltà a spiegare ulteriormente questa scoperta. Come può essere possibile e quali sono alcune spiegazioni per questo risultato?

Grazie in anticipo!

Informazioni extra: con "influenza notevole" intendo che 0 non è incluso nell'intervallo di densità posteriore più alto del 95% della stima dei parametri (sto usando un approccio bayesiano). In termini frequentistici ciò corrisponde approssimativamente ad avere un valore di p inferiore a 0,05. Sto usando solo priori diffusi (non informativi) per tutti i parametri dei miei modelli. I miei dati hanno una struttura longitudinale e contengono circa 7000 osservazioni in totale. Per le previsioni fuori campione ho usato il 90% dei dati per adattarmi ai miei modelli e il 10% dei dati per valutare i modelli utilizzando più repliche. Cioè, ho eseguito la suddivisione del test del treno più volte e alla fine ho riportato le metriche delle prestazioni medie.


2
Poiché stai usando un approccio bayesiano, i tuoi risultati dipendono tanto dal tuo precedente quanto dai dati. Poiché la dipendenza dal precedente diminuisce con l'aumentare della quantità di dati e aumenta nella misura in cui i dati e il disaccordo precedente, sarebbe utile fornire informazioni sia sulla distribuzione precedente, la quantità di dati e quanto i soli dati sono conformi alla distribuzione precedente.
whuber

1
@whuber Ho dimenticato di dire che sto usando solo priori diffusi (non informativi). Pertanto, non mi sembra che le mie specifiche precedenti abbiano a che fare con le mie scoperte. Sono abbastanza sicuro che il montaggio di modelli di regressione lineare frequentista comporterà esattamente gli stessi risultati.
dubvice,

Grazie - questo aiuta a escludere diverse possibili spiegazioni.
whuber

1
Stai rimettendo i modelli sui dati dati o stai utilizzando i modelli che si adattano ai tuoi dati originali? In entrambi i casi un possibile problema è che stai commettendo un errore di tipo II sui dati dati; forse la variabile è rilevante ma in origine eri sottodimensionato (nel qual caso probabilmente stai sopravvalutando l'effetto che potrebbe peggiorare le previsioni). Oppure la variabile era irrilevante e hai commesso un errore di tipo I. Ci sono molte ragioni per cui questo tipo di cose potrebbe accadere.
ragazzo

1
Ho usato diverse metriche: RSME, MAE e AUC (sto anche cercando di prevedere se la mia variabile dipendente, che è continua, è al di sotto di una certa soglia).
dubvice,

Risposte:


3

x1x2x1x2x1x2x1x2R2

La funzione è:

sim_ES <- function (effect_size = 1, sd = 2, n = 200) {
    # simulate some data
    DF <- data.frame(x1 = runif(n, -3, 3), x2 = runif(n, -3, 3))
    DF$y <- 2 + 5 * DF$x1 + (effect_size * sd) * DF$x2 + rnorm(n, sd = sd)

    # fit the models with and without x2
    fm1 <- lm(y ~ x1 + x2, data = DF)
    fm2 <- lm(y ~ x1, data = DF)

    # results
    list("95% CIs" = confint(fm1),
         "R2_X1_X2" = summary(fm1)$r.squared,
         "R2_only_X1" = summary(fm2)$r.squared)
}

Come esempio, per i valori predefiniti che otteniamo,

$`95% CIs`
               2.5 %   97.5 %
(Intercept) 1.769235 2.349051
x1          4.857439 5.196503
x2          1.759917 2.094877

$R2_X1_X2
[1] 0.9512757

$R2_only_X1
[1] 0.8238826

x2R2

Ma se impostiamo la dimensione dell'effetto su 0,3, otteniamo:

> sim_ES(effect_size = 0.3)
$`95% CIs`
                2.5 %    97.5 %
(Intercept) 1.9888073 2.5563233
x1          4.9383698 5.2547929
x2          0.3512024 0.6717464

$R2_X1_X2
[1] 0.9542341

$R2_only_X1
[1] 0.9450327

R2


La vaga dicotomia tra significato statistico e prestazioni predittive è la rovina della mia vita analitica in più di un modo. (+1 - e un benvenuto generale al CV Prof.!)
usεr11852

-1

Questa è una cosa abbastanza normale che accada nella regressione multipla. Il motivo più comune è che i tuoi predittori sono collegati tra loro. In altre parole, puoi dedurre X dai valori degli altri predittori. Pertanto, sebbene sia utile per le previsioni se è l'unico predittore che hai, una volta che hai tutti gli altri predittori non fornisce molte informazioni extra. Puoi verificare se questo è il caso regredendo X sugli altri predittori. Vorrei anche fare riferimento al capitolo sulla regressione lineare nel libro di testo online gratuito, Elementi di apprendimento statistico.


1
Sembra che tu stia descrivendo una variabile esplicativa non significativa piuttosto che affrontare le circostanze specifiche descritte nella domanda.
whuber

Sto descrivendo una variabile esplicativa che è significativamente correlata alla risposta da sola (cioè in una semplice regressione), che è ciò che presumo che la domanda significhi che "X sembra avere un impatto significativo sulla mia variabile di risposta".
Denziloe,

Ma in quel caso non avrei scoperto che la mia variabile esplicativa X abbia un impatto significativo sulla mia variabile di risposta, giusto? Forse non ho chiarito inizialmente la mia domanda, ma ho usato un modello con tutte le variabili esplicative per scoprire che la variabile esplicativa X ha un'influenza significativa sulla mia variabile di risposta.
dubvice,

3
X

1
Sì whuber, l'hai capito bene. Questo è ciò che intendo. Spero di averlo chiarito abbastanza bene nella mia domanda.
dubvice,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.