Perché si dovrebbe fare una trasformazione WOE di predittori categorici nella regressione logistica?


10

Quando è utile la trasformazione del peso dell'evidenza (WOE) delle variabili categoriali?

L'esempio può essere visto nella trasformazione di WOE

(Così, per una risposta , e un predittore categoriale con categorie, e successi fuori prove all'interno della esima categoria di questo predittore, il Guai alla esima categoria è definito comek y j n j j jyKyjnjjj

logyjΣjKyjΣjK(nj-yj)nj-yj

e la trasformazione consiste nel codificare ogni categoria del predittore categoriale con il suo WOE per formare un nuovo predittore continuo.)

Vorrei imparare il motivo per cui la trasformazione WOE aiuta la regressione logistica. Qual è la teoria dietro questo?

Risposte:


6

Nell'esempio a cui ci si collega, il predittore categorico è rappresentato da una singola variabile continua che assume un valore per ciascun livello uguale alle probabilità del log osservate della risposta in quel livello (più una costante):

logyjnj-yj+logΣjK(nj-yj)ΣjKyj

Questa offuscamento non ha alcuno scopo a cui io possa pensare: otterrai la stessa risposta prevista come se avessi usato la solita codifica fittizia; ma i gradi di libertà sono sbagliati, invalidando diverse utili forme di inferenza sul modello.

In regressione multipla, con diversi predittori categorici da trasformare, suppongo che dovresti calcolare i WOE per ognuno usando le probabilità di registro marginali. Ciò cambierà le risposte previste; ma poiché il confondimento non viene preso in considerazione - le probabilità del registro condizionali non sono una funzione lineare delle probabilità del registro marginale - non riesco a vedere alcun motivo per supporre che sia un miglioramento, e rimangono i problemi inferenziali.


Puoi spiegare perché i gradi di libertà sono sbagliati con WOE? È solo una trasformazione, giusto? Inoltre, se avessimo diverse variabili categoriali e avessimo WOE per ognuna una per una? Nella mia esperienza quando hai molte variabili categoriali, allora alcuni bucket tra variabili diverse si sovrappongono molto e inizi a vedere alcuni coefficienti che sono insignificanti. E inoltre devi portare con te diversi coefficienti.
Adamo,

1
(1) Una trasformazione che dipende dalla valutazione della relazione tra predittori e risposta - qualcosa che dovrebbe essere lasciato alla regressione. Ad esempio, la statistica del test del rapporto di verosimiglianza non avrà la stessa distribuzione di quando una trasformazione è pre-specificata. (2) buon punto! - una regressione multipla su WOE non sarà equivalente a quella su variabili fittizie (a meno che i modelli non siano saturi). (3) E allora? (4) I coefficienti non sono più pesanti dei WOE.
Scortchi - Ripristina Monica

Immagino che WoE sia rimasto dai tempi in cui il calcolo era più un problema rispetto ad oggi. Quindi forse, con i predittori categorici con MOLTI livelli, la conversione in una variabile numerica è stata un'idea brillante!
kjetil b halvorsen

1

La classificazione approssimativa mediante la misura del peso dell'evidenza (WoE) presenta il seguente vantaggio: WoE mostra una relazione lineare con il logaritmo naturale del rapporto di probabilità che è la variabile dipendente nella regressione logistica.
Pertanto, la questione della mancata specificazione del modello non si pone nella regressione logistica quando utilizziamo WoE invece dei valori effettivi della variabile.

αln(p/1-p) = + * + * + *αβWoE(Vun'r1)γWoE(Vun'r2)ηWoE(Vun'r3)

Fonte: in uno dei PPT il mio trainer mi ha mostrato durante la formazione aziendale.


2
"la mancata specificazione del modello non insorge nella regressione logistica quando usiamo WoE invece dei valori effettivi della variabile". Puoi spiegarlo / dimostrarlo matematicamente?
Adamo,

Non sono un
esperto di

Anche questo link rivendica lo stesso sebbene nessuna matematica sia spiegata analyticbridge.com/forum/topics/…
Srikanth Guhan,

1
Grazie per i collegamenti, ma è chiaramente falso che le probabilità di registro marginali a cui WoE è proporzionale hanno una relazione lineare con le probabilità di registro condizionali con le quali la regressione logistica riguarda se stessa. Confondere con altri predittori può persino comportare categorie di ordini WoE in modo diverso.
Scortchi - Ripristina Monica

1

Le trasformazioni WOE aiutano quando si hanno sia dati numerici che categorici che è necessario combinare e valori mancanti in cui si desidera estrarre informazioni. La conversione di tutto in WOE consente di "standardizzare" molti tipi diversi di dati (anche dati mancanti) nella stessa scala di probabilità del registro. Questo post sul blog spiega le cose ragionevolmente bene: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Il corto della storia è che la regressione logistica con WOE, dovrebbe essere (ed è) chiamata semplicemente classificatore bayesiano semi-ingenuo (SNBC). Se stai cercando di capire l'algoritmo, il nome SNBC è, per me, molto più informativo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.