Come trovare e valutare la discretizzazione ottimale per la variabile continua con criterio


9

Ho un set di dati con variabile continua e una variabile di destinazione binaria (0 e 1).

Devo discretizzare le variabili continue (per la regressione logistica) rispetto alla variabile target e con il vincolo che la frequenza di osservazione in ciascun intervallo dovrebbe essere bilanciata. Ho provato algoritmi di machine learning come Chi Merge, alberi decisionali. L'unione Chi mi ha dato intervalli con numeri molto sbilanciati in ogni intervallo (un intervallo con 3 osservazioni e un altro con 1000). Gli alberi delle decisioni erano difficili da interpretare.

Sono giunto alla conclusione che una discretizzazione ottimale dovrebbe massimizzare la statistica tra la variabile discretizzata e la variabile target e dovrebbe avere intervalli contenenti approssimativamente la stessa quantità di osservazioni.χ2

Esiste un algoritmo per risolvere questo?

Ecco come potrebbe apparire in R (def è la variabile target e x la variabile da discretizzare). Ho calcolato di Tschuprow per valutare la "correlazione" tra la trasformata e la variabile di destinazione perché × 2 statistiche tende ad aumentare con il numero di intervalli. Non sono sicuro se questo è il modo giusto.Tχ2

T

chitest <- function(x){
  interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE)
  X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic
  #Tschuprow
  Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1))))
  print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup))
}

2
Forse lo sai; ma, per la cronaca, (1) non è né necessario né, spesso, desiderabile discretizzare i predittori per la regressione logistica, e (2) l'uso della risposta per definire i predittori introduce una distorsione ottimistica nella stima delle prestazioni predittive del modello, ed è pertanto è importante convalidare l' intera procedura di adattamento (ovvero includendo il metodo utilizzato per formare i predittori).
Scortchi - Ripristina Monica

Ok, come posso validare la discretizzazione, come funziona?
Charlotte,

Se si utilizza, ad esempio, la convalida incrociata, in ciascuna piega non si esegue semplicemente la regressione logistica utilizzando la discretizzazione "ottimale" dei predittori determinata dall'intero campione, ma si ricalcola anche la discretizzazione "ottimale".
Scortchi - Ripristina Monica

Risposte:


8

Esistono molti modi possibili per discretizzare una variabile continua: vedi [Garcia 2013]

A pagina 739 ho potuto vedere almeno 5 metodi basati sul chi-quadrato. L'ottimalità della discretizzazione dipende in realtà dall'attività in cui si desidera utilizzare la variabile discretizzata. Nel proprio caso regressione logistica. E come discusso in Garcia2013, trovare la discretizzazione ottimale dato un compito è NP-completo.

Ci sono molte euristiche però. In questo articolo ne discutono almeno 50. Dato il mio background di apprendimento automatico (immagino che le persone nelle statistiche preferiscano altre cose), sono spesso distorto verso il metodo MDL (Minimal Length Length) di Fayyad e Irani. Vedo che è disponibile nella discretizzazione del pacchetto R

Come hai detto, il Chi-quadrato è distorto verso l'alto numero di intervalli e molte altre statistiche (come il guadagno di informazioni utilizzato nel metodo MDL) lo sono. Tuttavia, MDL cerca di trovare un buon compromesso tra il guadagno di informazioni della variabile discretizzata e la classe e la complessità (numero di intervalli) della variabile discretizzata. Provaci.


Il tuo link Garcia 2013 sembra essere rotto ... ti dispiacerebbe pubblicare ulteriori dettagli su questo articolo o ricollegare?
Kiran K.,

2
@KiranK. Grazie per avermi fatto sapere. Ho corretto il collegamento.
Simone,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.