Regressione nell'impostazione


15

Sto cercando di vedere se scegliere regressione della cresta , LASSO , regressione del componente principale (PCR) o Minimi quadrati parziali (PLS) in una situazione in cui vi sono un gran numero di variabili / caratteristiche ( ) e un numero minore di campioni ( ) e il mio obiettivo è la previsione.pn<p

Questa la mia comprensione:

  1. La regressione della cresta riduce i coefficienti di regressione, ma utilizza tutti i coefficienti senza renderli.0

  2. LASSO riduce anche i coefficienti, ma li rende anche, il che significa che può fare anche la selezione variabile.0

  3. La regressione del componente principale tronca i componenti in modo che diventi inferiore a ; esso scarterà componenti.n p - npnpn

  4. Il quadrato minimo parziale costruisce anche un insieme di combinazioni lineari degli input per la regressione, ma a differenza della PCR utilizza (oltre a ) per la riduzione della dimensionalità. La principale differenza pratica tra la regressione di PCR e PLS è che la PCR ha spesso bisogno di più componenti rispetto a PLS per ottenere lo stesso errore di previsione ( vedere qui ).XyX

Considera i seguenti dati fittizi (i dati effettivi con cui sto provando a lavorare sono simili):

#random population of 200 subjects with 1000 variables 

M <- matrix(rep(0,200*100),200,1000)
for (i in 1:200) {
set.seed(i)
  M[i,] <- ifelse(runif(1000)<0.5,-1,1)
}
rownames(M) <- 1:200

#random yvars 
set.seed(1234)
u <- rnorm(1000)
g <- as.vector(crossprod(t(M),u))
h2 <- 0.5 
set.seed(234)
y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g)))

myd <- data.frame(y=y, M)

Implementazione di quattro metodi:

 require(glmnet)

 # LASSO 
 fit1=glmnet(M,y, family="gaussian", alpha=1)

 # Ridge   
 fit1=glmnet(M,y, family="gaussian", alpha=0)

 # PLS
 require(pls)
 fit3 <- plsr(y ~ ., ncomp = 198, data = myd, validation = "LOO")
 # taking 198 components and using leave-one-out cross validation 
 summary(fit3)
 plot(RMSEP(fit3), legendpos = "topright")

 # PCR 
 fit4 <- pcr(y ~ ., ncomp = 198, data = myd, validation = "LOO")

La migliore descrizione dei dati è:

  1. , il più delle volte p > 10 n ;p>np>10n

  2. Le variabili ( e Y ) sono correlate tra loro con gradi diversi.XY

La mia domanda è: quale strategia potrebbe essere la migliore per questa situazione? Perché?


6
Non ho una risposta spontanea, ma il capitolo 18 di Elements of Statistical Learning è dedicato a questo argomento e copre, credo, tutte le tecniche che menzioni.
Shadowtalker,


@ssdecontrol Grazie per il libro che hai pubblicato. Così utile
Christina,

Risposte:


30

Penso che non ci sia una risposta unica alla tua domanda: dipende da molte situazioni, dati e da ciò che stai cercando di fare. Alcune delle modifiche possono essere o dovrebbero essere modificate per raggiungere l'obiettivo. Tuttavia, la seguente discussione generale può essere d'aiuto.

Prima di passare ai metodi più avanzati, discutiamo prima del modello di base: regressione dei minimi quadrati (LS) . Esistono due motivi per cui una stima dei minimi quadrati dei parametri nel modello completo non è soddisfacente:

  1. Qualità della previsione: le stime dei minimi quadrati spesso presentano una leggera distorsione, ma una varianza elevata. La qualità di previsione può talvolta essere migliorata riducendo il coefficiente di regressione o impostando alcuni coefficienti pari a zero. In questo modo la distorsione aumenta, ma la varianza della previsione si riduce significativamente, il che porta a una previsione complessivamente migliorata. Questo scambio ff tra distorsione e varianza può essere facilmente visto decomponendo l' errore quadratico medio (MSE). Un MSE più piccolo porta a una migliore previsione di nuovi valori.

  2. Interpretazione : se sono disponibili molte variabili predittive, ha senso identificare quelle che hanno la maggiore influenza e impostare quelle a zero che non sono rilevanti per la previsione. Pertanto eliminiamo le variabili che spiegheranno solo alcuni dettagli, ma conserviamo quelle che consentono la spiegazione principale della variabile di risposta.

Quindi entrano in scena metodi di selezione variabili . Con la selezione delle variabili viene utilizzato solo un sottoinsieme di tutte le variabili di input, il resto viene eliminato dal modello. Miglior sottoinsieme di regressione fi nds il sottoinsieme di dimensione per ogni k { 0 , 1 , . . . , p } che fornisce il più piccolo RSS. Un algoritmo e ffi ciente è il cosiddetto algoritmo Jump and Bounds che può gestire fino a 30 o 40 variabili regressori. Con set di dati superiori a 40KK{0,1,...,p}304040input variabili una ricerca attraverso tutti i possibili sottoinsiemi diventa impossibile. Pertanto sono utili la selezione graduale in avanti e la selezione graduale all'indietro. La selezione all'indietro può essere utilizzata solo quando per avere un modello ben definito. L'efficienza di calcolo di questi metodi è discutibile quando p è molto elevato.n>pp

βzK,K=1,2,...,qXj

I metodi differiscono nel modo in cui sono costruite le combinazioni lineari. La regressione dei componenti principali (PCR) cerca le trasformazioni dei dati originali in una nuova serie di variabili non correlate chiamate componenti principali .

yXyXβγγqpXyy

λ0λ

ββ

Xp-q

YioLa differenza tra L1 e L2 è solo che L2 è la somma del quadrato dei pesi, mentre L1 è solo la somma dei pesi. La norma L1 tende a produrre coefficienti sparsi e ha la selezione delle funzioni integrate . La norma L1 non ha una soluzione analitica, ma la norma L2. Ciò consente di calcolare in modo computazionale le soluzioni a norma L2. La norma L2 ha soluzioni uniche mentre la norma L1 no.

S0S

p»N

L'analisi dei componenti principali è un metodo efficace per trovare combinazioni lineari di funzionalità che presentano grandi variazioni in un set di dati. Ma ciò che cerchiamo qui sono combinazioni lineari con varianza elevata e correlazione significativa con il risultato. Quindi vogliamo incoraggiare l'analisi delle componenti principali per trovare combinazioni lineari di caratteristiche che hanno un'elevata correlazione con il risultato - componenti principali supervisionate (vedi pagina 678, Algoritmo 18.1, nel libro Elementi di apprendimento statistico ).

I minimi quadrati parziali riducono il peso di elementi rumorosi, ma non li gettano via; di conseguenza un gran numero di funzioni rumorose può contaminare le previsioni. Il PLS con soglia può essere visto come una versione rumorosa dei componenti principali supervisionati e, pertanto, potremmo non aspettarci che funzioni anche nella pratica. I componenti principali supervisionati possono produrre errori di test inferiori rispetto a Soglia PLS . Tuttavia, non sempre produce un modello sparso che coinvolge solo un piccolo numero di funzioni.

p


1
pregiudizio2+Varianza

2
Cosa intendi quando dici che "la norma L2 ha soluzioni uniche mentre la norma L1 no."? L'obiettivo del lazo è convesso ...
Andrew M,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.