Necessità di centrare e standardizzare i dati in regressione


16

Prendi in considerazione la regressione lineare con una certa regolarizzazione: ad esempio Trova che minimizza| | A x - b | | 2 + λ | | x | | 1x||Axb||2+λ||x||1

Di solito, le colonne di A sono standardizzate per avere media zero e norma unitaria, mentre è centrata per avere media zero. Voglio assicurarmi che la mia comprensione del motivo della standardizzazione e centratura sia corretta.b

Rendendo i mezzi delle colonne di e zero, non abbiamo più bisogno di un termine di intercettazione. Altrimenti, l'obiettivo sarebbe stato . Rendendo le norme delle colonne di A pari a 1, eliminiamo la possibilità di un caso in cui solo perché una colonna di A ha una norma molto alta, ottiene un basso coefficiente in , che potrebbe portarci a concludere erroneamente che quella colonna di A non "spiega" bene.b | | A x - x 0 1 - b | | 2 + λ | | x | | 1 x xAb||Axx01b||2+λ||x||1xx

Questo ragionamento non è esattamente rigoroso ma intuitivo, è questo il modo giusto di pensare?

Risposte:


14

Hai ragione azzerare la media delle colonne di A e b .

Tuttavia, per quanto riguarda la regolazione delle norme delle colonne di A , considera cosa succederebbe se iniziassi con una A normata A, e tutti gli elementi di x fossero all'incirca della stessa grandezza. Quindi moltiplichiamo una colonna per, diciamo, 106 . L'elemento corrispondente di x sarebbe, in una regressione non regolamentata, aumentato di un fattore di 106 . Vedi cosa accadrebbe al termine della regolarizzazione? La regolarizzazione si applicherebbe, a tutti gli effetti pratici, solo a quel coefficiente.

Normando le colonne di , noi, scrivendo intuitivamente, le mettiamo tutte sulla stessa scala. Di conseguenza, le differenze nelle dimensioni degli elementi di sono direttamente correlate alla "oscillazione" della funzione esplicativa ( ), che è, in termini vaghi, ciò che la regolarizzazione cerca di controllare. Senza di essa, un valore di coefficiente pari, ad esempio, a 0,1 rispetto a un altro di 10,0 ti direbbe, in assenza di conoscenza di , nulla su quale coefficiente contribuisse maggiormente alla "oscillazione" di . (Per una funzione lineare, come , "oscillazione" è correlata alla deviazione da 0.)x A x A A x A xAxAxAAxAx

Per tornare alla tua spiegazione, se una colonna di ha una norma molto alta e per qualche ragione ottiene un coefficiente basso in , non concluderemmo che la colonna di non "spieghi" bene . non "spiega" affatto. x A x A xAxAxAx


Intendi $x$ does not ''explain'' $A$ welle intendi x does not ''explain'' $A$ at all? sono i dati mentre è il modello in questo caso. xAx
user3813057,

@ user3813057 - questa era una domanda sulla regolarizzazione e non ha nulla a che fare con il potere esplicativo. sarebbe più comunemente etichettato , sarebbe più solitamente etichettato e sarebbe più comunemente etichettato . non è lì per spiegare affatto. xβAXbyxA
jbowman,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.