Come quantificare l'importanza della variabile relativa nella regressione logistica in termini di p?


11

Supponiamo che venga utilizzato un modello di regressione logistica per prevedere se un acquirente online acquisterà un prodotto (risultato: acquisto), dopo aver fatto clic su una serie di annunci online (predittori: Ad1, Ad2 e Ad3).

Il risultato è una variabile binaria: 1 (acquistata) o 0 (non purcahsed). I predittori sono anche variabili binarie: 1 (cliccato) o 0 (non cliccato). Quindi tutte le variabili sono sulla stessa scala.

Se i coefficienti risultanti di Ad1, Ad2 e Ad3 sono 0,1, 0,2 e 03, possiamo concludere che Ad3 è più importante di Ad2 e Ad2 è più importante di Ad1. Inoltre, poiché tutte le variabili sono sulla stessa scala, i coefficienti standardizzati e non standardizzati dovrebbero essere uguali e possiamo ulteriormente concludere che Ad2 è due volte più importante di Ad1 in termini di influenza sul livello logit (log-odds).

Ma in pratica ci preoccupiamo di più di come confrontare e interpretare l'importanza relativa delle variabili in termini di livello p (probabilità dell'acquisto), non logit (log-odds).

Quindi la domanda è: esiste un approccio per quantificare l'importanza relativa di queste variabili in termini di p?


Ho trovato utile questo articolo . Descrive ben sei diversi metodi che possono essere utilizzati per definire l'importanza del predittore da un modello di regressione logistica insieme a oggetti di scena e contro associati a ciascun metodo.
Gchaks,

Risposte:


5

Per i modelli lineari è possibile utilizzare il valore assoluto delle statistiche t per ciascun parametro del modello.

Inoltre, puoi usare qualcosa di simile a una foresta casuale e ottenere un elenco molto bello di importanti funzionalità.

Se stai usando R check out ( http://caret.r-forge.r-project.org/varimp.html ), se stai usando Python check out ( http://scikit-learn.org/stable/auto_examples /ensemble/plot_forest_importances.html#example-ensemble-plot-forest-importances-py )

MODIFICARE:

Poiché logit non ha un modo diretto per farlo, è possibile utilizzare una curva ROC per ciascun predittore.

Per la classificazione, l'analisi della curva ROC viene condotta su ciascun predittore. Per due problemi di classe, una serie di cutoff viene applicata ai dati del predittore per prevedere la classe. La sensibilità e la specificità vengono calcolate per ogni cutoff e viene calcolata la curva ROC. La regola trapezoidale viene utilizzata per calcolare l'area sotto la curva ROC. Quest'area viene utilizzata come misura di importanza variabile

Un esempio di come funziona in R è:

library(caret)
mydata <- data.frame(y = c(1,0,0,0,1,1),
                 x1 = c(1,1,0,1,0,0),
                 x2 = c(1,1,1,0,0,1),
                 x3 = c(1,0,1,1,0,0))

fit <- glm(y~x1+x2+x3,data=mydata,family=binomial())
summary(fit)

varImp(fit, scale = FALSE)

1
Grazie per la tua risposta! sì, è facile per il modello lineare e la foresta casuale, hai idea di come farlo nel caso della regressione logistica? Molte grazie!
xyhzc,

Vedi modifica sopra.
mike1886,

Sembra che alla domanda sui confronti a livello di rapporto non sia ancora stata data risposta. Anche se sappiamo che l'AUC è, diciamo, .6 usando solo x1 e .9 usando solo x2, non possiamo dire che l'importanza di x2 sia quindi maggiore del 50%. Né, penso, sia (1 - 10% / 40%) = 75% maggiore. Né possiamo fare qualcosa di analogo usando solo la sensibilità o solo la specificità. Ho anche dei dubbi sull'applicabilità della statistica Wald qui. I più utili potrebbero essere le spiegazioni dei coefficienti standardizzati (vedi il libro online di Scott Menard).
rolando2,

Grazie rolando2! Le variabili in questa domanda sono tutte misure nelle stesse metriche, quindi i coefficienti standardizzati e non standardizzati dovrebbero essere gli stessi. Inoltre, sebbene possiamo usare i coefficienti standardizzati per confrontare le variabili a livello di logit (probabilità di log), come possiamo interpretare le variabili su P (la probabilità di acquisto degli acquirenti online in questo caso)? molte grazie!
xyhzc,

1
Non lo vedo rispondere alla domanda.
HelloWorld,

4

Dato che stavi chiedendo in particolare un'interpretazione sulla scala delle probabilità: in una regressione logistica, la probabilità stimata di successo è data da

π^(X)=eXp(β0+βX)1+eXp(β0+βX)

β0βX

eXp(0.1)1+eXp(0.1)=0.52

Una persona che ha fatto clic solo sull'annuncio 3:

eXp(0.3)1+eXp(0.3)=0.57

Tuttavia, se la persona ha fatto clic sull'annuncio 1 o sull'annuncio 3 ma anche sull'annuncio 2 (se si tratta di uno scenario plasubile), le probabilità diventano

eXp(0.1+0.2)1+eXp(0.1+0.2)=0.57

eXp(0.3+0.2)1+eXp(0.3+0.2)=0.62

In questo caso la variazione della probabilità è sia 0,05, ma di solito questa variazione non è la stessa per diverse combinazioni di livelli. (Puoi vederlo facilmente se ad esempio usi lo stesso approccio di cui sopra ma con coefficienti 0,1, 1,5, 0,3.) Pertanto, l'importanza di una variabile sulla scala di probabilità dipende dai livelli osservati delle altre variabili. Ciò può rendere difficile (impossibile?) Elaborare una misura assoluta, quantitativa di importanza variabile sulla scala di probabilità.


Grazie per la tua spiegazione! Allora sai che esiste un metodo indiretto per quantificare l'importanza relativa dei predittori? mike1886 ha menzionato "l'analisi della curva ROC" nella sua risposta, ma presenta alcuni problemi come menzionato da rolando2. Molte grazie!
xyhzc,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.