la categorizzazione di una variabile la trasforma da insignificante a significativa


17

Ho una variabile numerica che risulta non significativa in un modello di regressione logistica multivariata. Tuttavia, quando lo categorizzo in gruppi, improvvisamente diventa significativo. Questo è molto intuitivo per me: quando classifichiamo una variabile, forniamo alcune informazioni.

Come può essere?

Risposte:


25

Una possibile spiegazione sarebbero le non linearità nella relazione tra il risultato e il predittore.

[-1,1]X-1X1, ma meno probabile X0. In questo caso, un modello lineare apparirà insignificante, ma tagliare il predittore a intervalli lo rende significativo.

> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
> 
> library(lmtest)
> 
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test

Model 1: yy ~ xx
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)
1   2 -676.72                     
2   1 -677.22 -1 0.9914     0.3194
> 
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test

Model 1: yy ~ xx_cut
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)  
1   3 -673.65                       
2   1 -677.22 -2 7.1362    0.02821 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Tuttavia, ciò non significa che la discretizzazione del predittore sia l'approccio migliore. (Non lo è quasi mai.) Molto meglio modellare la non linearità usando o simili.


Ci sono alcuni esempi in cui il discretizzazione potrebbe essere sensato? Ad esempio, se si dispone di una soglia specifica (ad es. Età 18) alla quale si verifica una commutazione binaria degli esiti. L'età numerica nell'intervallo 18+ potrebbe non essere significativa, ma l'età binaria> 18 anni potrebbe essere significativa?
ajrwhite

3
@ajrwhite: dipende dal campo. Ovunque le soglie siano codificate per legge, la discretizzazione potrebbe avere senso. Ad esempio, se si modella il comportamento del voto, ha senso verificare se qualcuno è effettivamente idoneo a votare all'età di 18 anni. Allo stesso modo, in Germania, la tassa sui veicoli dipende dalla cilindrata del motore e dai salti a 1700, 1800, 1900, ... ccm , praticamente tutte le auto hanno spostamenti di 1699, 1799, ... ccm (tipo di auto-discretizzazione). Nelle scienze naturali come la biologia, la medicina, la psicologia ecc., Faccio fatica a trovare un esempio in cui la discretizzazione abbia un senso.
S. Kolassa - Ripristina Monica il

7

Un modo possibile è se la relazione è chiaramente non lineare. Non è possibile dire (data la mancanza di dettagli) se questo spiega davvero cosa sta succedendo.

Puoi controllare tu stesso. Innanzitutto, è possibile creare un grafico variabile aggiunto per la variabile come se stesso, nonché gli effetti adattati nella versione fattore del modello. Se la spiegazione è corretta, entrambi dovrebbero vedere un modello chiaramente non lineare.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.