Scarsità scartando il coefficiente dei minimi quadrati


14

Supponiamo di voler regredire contro una X normalizzata , ma vorrei una soluzione sparsa. Dopo la regressione, perché non è consentito scartare i coefficienti con la minima intensità?YX

Per la cronaca, ho sentito parlare e spesso uso dei metodi LARS e LASSO. Sono solo curioso di sapere perché l'approccio di cui sopra non è applicabile.


2
+1 Queste semplici domande possono essere difficili: fanno riflettere intensamente sui concetti di base.
whuber

Risposte:


14

Non ci sarebbero problemi se fosse ortonormale. Tuttavia, la possibilità di una forte correlazione tra le variabili esplicative dovrebbe darci una pausa.X

Se si considera l' interpretazione geometrica della regressione dei minimi quadrati , i controesempi sono facili da trovare. Prendi per avere, per esempio, coefficienti distribuiti quasi normalmente e X 2 per essere quasi parallelo ad esso. Sia X 3 ortogonale al piano generato da X 1 e X 2 . Possiamo immaginare una Y che è principalmente nella direzione X 3 , ma che è spostata di una quantità relativamente piccola dall'origine nel piano X 1 , X 2 . Perché X 1 eX1X2X3X1X2YX3X1,X2X1 sono quasi paralleli, i suoi componenti in quel piano potrebbero avere entrambi coefficienti elevati, facendoci cadere X 3 , il che sarebbe un enorme errore.X2X3

La geometria può essere ricreata con una simulazione, ad esempio mediante questi Rcalcoli:

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

Xi1X320YR20.99750.38

La matrice scatterplot rivela tutto:

Matrice a dispersione di x1, x2, x3 e y

x3yx1yx2yx3x1x2


2

Mi sembra che se un coefficiente stimato fosse vicino a 0 e i dati fossero normalizzati, la previsione non sarebbe danneggiata scartando la variabile. Certamente se il coefficiente non fosse statisticamente significativo non sembrerebbe esserci alcun problema. Ma questo deve essere fatto con attenzione. I IV possono essere correlati e rimuoverne uno potrebbe cambiare i coefficienti degli altri. Questo diventa più pericoloso se inizi a ripristinare diverse variabili in questo modo. Le procedure di selezione del sottoinsieme sono progettate per evitare tali problemi e utilizzare criteri sensibili per l'inclusione e l'esclusione delle variabili. Se chiedessi a Frank Harrell sarebbe contrario alle procedure graduali. Citi LARS e LASSO che sono due metodi molto moderni. Ma ce ne sono molti altri, compresi i criteri di informazione che consentono di introdurre troppe variabili.

Se provi una procedura di selezione di un sottoinsieme che è stata attentamente studiata con molta letteratura a riguardo, probabilmente scoprirai che porterà a una soluzione che rimuove variabili con piccoli coefficienti, specialmente se falliscono il test per essere statisticamente significativamente diversi da 0.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.