Sostituzione delle variabili con WoE (peso dell'evidenza) nella regressione logistica


14

Questa è una domanda riguardante una pratica o un metodo seguito da alcuni dei miei colleghi. Durante la creazione di un modello di regressione logistica, ho visto le persone sostituire le variabili categoriali (o variabili continue che sono integrate) con il rispettivo Peso dell'evidenza (WoE). Questo è presumibilmente fatto per stabilire una relazione monotonica tra il regressore e la variabile dipendente. Ora, per quanto ho capito, una volta creato il modello, le variabili nell'equazione NON sono le variabili nel set di dati. Piuttosto, le variabili nell'equazione sono ora una specie di importanza o peso delle variabili nel separare la variabile dipendente !

La mia domanda è: come interpretiamo ora il modello o i coefficienti del modello? Ad esempio per la seguente equazione:

log(p1p)=β0+β1x1

possiamo dire che è l' aumento relativo del rapporto dispari per 1 unità di aumento nella variabile .x 1exp(β1) x1

Ma se la variabile viene sostituita dal suo WoE, l'interpretazione verrà modificata in: aumento relativo del rapporto dispari per 1 unità di aumento dell'IMPORTANZA / PESO della variabile

Ho visto questa pratica su Internet, ma da nessuna parte ho trovato la risposta a questa domanda. Questo collegamento da questa stessa comunità è correlato a query in qualche modo simili in cui qualcuno ha scritto:

WoE mostra una relazione lineare con il logaritmo naturale del rapporto di probabilità che è la variabile dipendente nella regressione logistica. Pertanto, la questione della mancata specificazione del modello non si pone nella regressione logistica quando utilizziamo WoE invece dei valori effettivi della variabile.

Ma ancora non capisco la spiegazione. Per favore, aiutami a capire cosa mi sto perdendo.


x 1 x 1exp(β1) è il rapporto di probabilità associato con un aumento di 1 unità in , non " l'aumento relativo del rapporto di probabilità associato con un aumento di 1 unità in ". x1x1
gung - Ripristina Monica

No. Chiaramente per sbarazzarsi di devi prendere il rapporto di LHS dopo l' β0
espiazione

Le probabilità sono p / (1-p), quindi se p (x) = exp (𝛽0 + 𝛽1x) e p (x + 1) = exp (𝛽0 + 𝛽1x + 𝛽1) nota che p (x + 1) = exp (𝛽0 + 𝛽1x) exp (𝛽1) e infine il rapporto di probabilità p (x + 1) / p (x) = exp (𝛽1) come dichiarato da stats.stackexchange.com/users/7290/gung
hwrd

Risposte:


12

Il metodo WoE prevede due passaggi:

1 - per dividere (una continua) variabile in poche categorie o per raggruppare (una discreta) variabile in poche categorie (e in entrambi i casi si assume che tutte le osservazioni in una categoria abbiano "stesso" effetto sulla variabile dipendente)
2 - per calcolare WoE valore per ogni categoria (quindi i valori x originali vengono sostituiti dai valori WoE)

La trasformazione di WoE ha (almeno) tre effetti positivi:
1) Può trasformare una variabile indipendente in modo da stabilire una relazione monotonica con la variabile dipendente. In realtà fa di più: per garantire una relazione monotonica sarebbe sufficiente "ricodificarla" in qualsiasi misura ordinata (ad esempio 1,2,3,4 ...) ma la trasformazione di WoE ordina effettivamente le categorie su un "logistico "scala che è naturale per la regressione logistica
2) Per variabili con troppi valori discreti (scarsamente popolati), questi possono essere raggruppati in categorie (densamente popolate) e il WoE può essere usato per esprimere informazioni per l'intera categoria
3) L'effetto (univariato) di ogni categoria sulla variabile dipendente può essere semplicemente confrontato tra categorie e tra variabili perché WoE è un valore standardizzato (ad esempio è possibile confrontare il WoE delle persone sposate con il WoE dei lavoratori manuali)

Ha anche (almeno) tre inconvenienti:
1) Perdita di informazioni (variazione) a causa del binning in poche categorie
2) È una misura "univariata", quindi non tiene conto della correlazione tra variabili indipendenti
3) È facile manipolare (sovrautilizzare) l'effetto delle variabili in base alla modalità di creazione delle categorie

Convenzionalmente, i beta della regressione (in cui la x è stata sostituita da WoE) non vengono interpretati di per sé ma vengono moltiplicati con WoE per ottenere un "punteggio" (ad esempio beta per lo "stato civile" variabile può essere moltiplicato con WoE di gruppo "persone sposate" per vedere il punteggio delle persone sposate; la beta per "occupazione" variabile può essere moltiplicata per il WoE di "lavoratori manuali" per vedere il punteggio dei lavoratori manuali. quindi se sei interessato al punteggio dei lavoratori manuali sposati, riassumi questi due punteggi e vedi quanto è l'effetto sul risultato). Più alto è il punteggio, maggiore è la probabilità di un risultato pari a 1.


1
(+1) Perché è un vantaggio ricodificare un predittore per avere una relazione monotonica con la risposta?
Scortchi - Ripristina Monica

1
@Scortchi Mi viene in mente un esempio: la variabile indipendente è l'altezza delle persone (misurata in cm), le persone vanno a fare shopping per bei vestiti, la variabile dipendente sarebbe un evento binario, indipendentemente dal fatto che possano o meno acquistare abiti adatti e comodi. apparentemente le persone molto piccole e molto alte avranno difficoltà a comprare vestiti adatti, mentre le persone nel mezzo potrebbero farlo facilmente. Con una semplice regressione (senza interazioni e senza trasformazioni) potresti solo modellare quella probabilità di acquistare vestiti adatti o aumenta o diminuisce con l'altezza delle persone
Cavallo di re Salomone,

1
Le persone di solito non usano trasformazioni non monotoniche dei predittori, non comunque nella modellazione empirica. Includere le interazioni può rimuovere o introdurre relazioni non monotoniche condizionali, così come includere altri predittori. Ma rappresentare un predittore con una funzione di base polinomiale o spline è un modo semplice per consentirli; e un altro lo sta classificando e quindi trattandolo come categorico, usando ad esempio la codifica a livello di riferimento. L'ultimo, almeno, è considerevolmente più semplice di questa trasformazione di WoE; nessuno condivide il danno per ...
Scortchi - Ripristina Monica

1
... inferenza e interpretabilità derivanti dalla definizione di un predittore in termini di risposta; e tutti consentono di modellare una relazione condizionale non monotonica anche quando la relazione marginale è monotona (o viceversa). Suppongo che ciò a cui sto arrivando è che la trasformazione di WoE mi sembra essere una soluzione alla ricerca di un problema. Esiste una classe di situazioni in cui produce previsioni migliori rispetto ai metodi più ampiamente utilizzati? - anche se questa è una domanda diversa da quella a cui hai risposto qui (forse stats.stackexchange.com/q/166816/17230 ).
Scortchi - Ripristina Monica

Che dire se disponi già di dati categorici? allora è l'unico vantaggio "stabilire una relazione monotonica"? Sembra che il componente critico di WoE sia effettivamente nel processo di binning
information_interchange

7

Il razionale per l'utilizzo di WOE nella regressione logistica è quello di generare quello che a volte viene chiamato il semi-naive Bayesian Classifier (SNBC). L'inizio di questo post sul blog spiega abbastanza bene le cose: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

I parametri beta nel modello sono il bias lineare di ciascun effetto ingenuo (noto anche come peso dell'evidenza) dovuto alla presenza di altri predittori e possono essere interpretati come il cambiamento lineare nelle probabilità del log dei predittori particolari dovuto alla presenza di altri predittori.


1

Weight of Evidence (WoE) è una tecnica potente per eseguire la trasformazione e la selezione variabili. È ampiamente utilizzato nel punteggio di credito per misurare la separazione tra clienti buoni e cattivi (variabili). Vantaggi :: - Gestisce i valori mancanti Gestisce i valori anomali che la trasformazione si basa sul valore logritmico della distribuzione. Non sono necessarie variabili fittizie utilizzando la corretta tecnica di binning in grado di stabilire relazioni monotoniche tra indipendente e dipendente.

mono_bin () = utilizzato per variabili numeriche. char_bin () = utilizzato per le variabili di carattere.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.