La mia domanda è: dobbiamo standardizzare il set di dati per assicurarci che tutte le variabili abbiano la stessa scala, tra [0,1], prima di adattare la regressione logistica. La formula è:
Il mio set di dati ha 2 variabili, descrivono la stessa cosa per due canali, ma il volume è diverso. Supponiamo che sia il numero di visite dei clienti in due negozi, quindi ecco se un cliente acquista. Perché un cliente può visitare entrambi i negozi, o due volte il primo negozio, un secondo negozio prima di effettuare un acquisto. ma il numero totale di visite dei clienti per il 1 ° negozio è 10 volte maggiore rispetto al secondo negozio. Quando inserisco questa regressione logistica, senza standardizzazione coef(store1)=37, coef(store2)=13
,; se standardizzo i dati, allora coef(store1)=133, coef(store2)=11
. Qualcosa come questo. Quale approccio ha più senso?
Cosa succede se sto adattando un modello di albero decisionale? So che i modelli di struttura ad albero non necessitano di standardizzazione poiché il modello stesso lo regolerà in qualche modo. Ma controllando con tutti voi.
C
cambia il fattore di regolarizzazione ottimale . Quindi è necessario scegliere C
dopo aver standardizzato i dati.