È necessaria la standardizzazione prima di adeguare la regressione logistica?


39

La mia domanda è: dobbiamo standardizzare il set di dati per assicurarci che tutte le variabili abbiano la stessa scala, tra [0,1], prima di adattare la regressione logistica. La formula è:

Xio-min(Xio)max(Xio)-min(Xio)

Il mio set di dati ha 2 variabili, descrivono la stessa cosa per due canali, ma il volume è diverso. Supponiamo che sia il numero di visite dei clienti in due negozi, quindi ecco se un cliente acquista. Perché un cliente può visitare entrambi i negozi, o due volte il primo negozio, un secondo negozio prima di effettuare un acquisto. ma il numero totale di visite dei clienti per il 1 ° negozio è 10 volte maggiore rispetto al secondo negozio. Quando inserisco questa regressione logistica, senza standardizzazione coef(store1)=37, coef(store2)=13,; se standardizzo i dati, allora coef(store1)=133, coef(store2)=11. Qualcosa come questo. Quale approccio ha più senso?

Cosa succede se sto adattando un modello di albero decisionale? So che i modelli di struttura ad albero non necessitano di standardizzazione poiché il modello stesso lo regolerà in qualche modo. Ma controllando con tutti voi.


10
Non è necessario standardizzare a meno che la regressione non sia regolarizzata. Tuttavia, a volte aiuta l'interpretazione e raramente fa male.
alex

3
Non è il solito modo di standardizzare Xio-X¯Sd(X) ?
Peter Flom - Ripristina Monica

1
@Peter, è quello che ho pensato prima, ma ho trovato un articolo benetzkorn.com/2011/11/data-normalization-and-standardization/… >, sembra che la normalizzazione e la standardizzazione siano cose diverse. Uno è rendere media 0 varianza 1, l'altro è ridimensionare ogni variabile. Ecco dove mi confondo. Grazie per la tua risposta.
user1946504,

7
Per me la standardizzazione rende l'interpretazione molto più difficile.
Frank Harrell,

2
Per chiarire cosa ha detto @alex, ridimensionare i dati significa che Ccambia il fattore di regolarizzazione ottimale . Quindi è necessario scegliere Cdopo aver standardizzato i dati.
Akxlr

Risposte:


37

La standardizzazione non è richiesta per la regressione logistica. L'obiettivo principale della standardizzazione delle funzionalità è di aiutare la convergenza della tecnica utilizzata per l'ottimizzazione. Ad esempio, se si utilizza Newton-Raphson per massimizzare la probabilità, la standardizzazione delle funzionalità velocizza la convergenza. Altrimenti, è possibile eseguire la regressione logistica senza alcun trattamento di standardizzazione sulle funzionalità.


Grazie per la tua risposta. Ciò significa che la standardizzazione è preferita? Dal momento che vogliamo sicuramente che il modello converga e quando abbiamo milioni di variabili, è solo più semplice implementare la logica della standardizzazione nella pipeline di modellazione piuttosto che sintonizzare le variabili una per una secondo necessità. Sto capendo giusto?
user1946504,

4
ciò dipende dallo scopo dell'analisi. I software moderni possono gestire dati piuttosto estremi senza standardizzare. Se esiste un'unità naturale per ogni variabile (anni, euro, kg, ecc.), Esiterei a standardizzare, anche se mi sento libero di cambiare l'unità da kg a ad esempio tonnellate o grammi ogni volta che ha più senso.
Maarten Buis,

19

@Aymen ha ragione, non è necessario normalizzare i dati per la regressione logistica. (Per informazioni più generali, può essere utile leggere questo thread del CV: quando dovresti centrare i tuoi dati e quando dovresti standardizzare?; Potresti anche notare che la tua trasformazione è più comunemente chiamata "normalizzazione", vedi: Come verificare un la distribuzione è normalizzata? ) Vorrei affrontare alcuni altri punti della domanda.

Vale la pena notare qui che nella regressione logistica i tuoi coefficienti indicano l'effetto di una variazione di un'unità nella variabile del tuo predittore sulle probabilità del log di "successo". L'effetto di trasformare una variabile (ad esempio standardizzando o normalizzando) è quello di cambiare ciò che chiamiamo "unità" nel contesto del nostro modello. I tuoi dati grezzi variavano per un certo numero di unità nella metrica originale. Dopo la normalizzazione, i dati variavano da a . Cioè, un cambiamento di un'unità ora significa passare dall'osservazione con il valore più basso all'osservazione con il valore più alto. La quantità di aumento delle probabilità di successo del registro non è cambiata. Da questi fatti, sospetto che la tua prima variabile ( ) siX01store1133/373.6unità originali e la tua seconda variabile ( store2) comprendeva solo unità originali. 11/130.85


17

Se usi la regressione logistica con LASSO o la regressione della cresta (come fa la classe Weka Logistic ) dovresti. Come sottolinea Hastie, Tibshirani e Friedman (pagina 82 del pdf o pagina 63 del libro):

Le soluzioni di cresta non sono equivalenti sotto il ridimensionamento degli input, quindi normalmente si standardizzano gli input prima di risolverli.

Anche questo thread lo fa.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.