Scusate se questa domanda si presenta un po 'di base.
Sto cercando di utilizzare la selezione delle variabili LASSO per un modello di regressione lineare multipla in R. Ho 15 predittori, uno dei quali è categorico (ciò causerà un problema?). Dopo aver impostato la mia ed io uso i seguenti comandi:
model = lars(x, y)
coef(model)
Il mio problema è quando uso coef(model)
. Ciò restituisce una matrice con 15 righe, con un predittore aggiuntivo aggiunto ogni volta. Tuttavia, non vi è alcun suggerimento su quale modello scegliere. Ho perso qualcosa? C'è un modo in cui posso ottenere il pacchetto Lars per restituire solo un modello " migliore "?
Ci sono altri post che suggeriscono di utilizzare glmnet
invece, ma questo sembra più complicato. Un tentativo è come segue, utilizzando lo stesso e . Mi sono perso qualcosa qui ?: y
cv = cv.glmnet(x, y)
model = glmnet(x, y, type.gaussian="covariance", lambda=cv$lambda.min)
predict(model, type="coefficients")
Il comando finale restituisce un elenco delle mie variabili, la maggior parte con un coefficiente sebbene alcune siano = 0. È questa la scelta corretta del modello " migliore " selezionato da LASSO? Se poi inserisco un modello lineare con tutte le mie variabili che avevano coefficienti not=0
ottengo stime di coefficienti molto simili, ma leggermente diverse. C'è una ragione per questa differenza? Sarebbe accettabile rimontare il modello lineare con queste variabili scelte da LASSO e prenderlo come mio modello finale? Altrimenti non riesco a vedere alcun valore p per significato. Ho perso qualcosa?
fa
type.gaussian="covariance"
assicurarti che glmnet
utilizzi la regressione lineare multipla?
La normalizzazione automatica delle variabili influisce sui coefficienti? Esiste un modo per includere termini di interazione in una procedura LASSO?
Sto cercando di utilizzare questa procedura più come una dimostrazione di come LASSO può essere utilizzato che per qualsiasi modello che verrà effettivamente utilizzato per qualsiasi inferenza / previsione importante se ciò cambia qualcosa.
Grazie per aver dedicato del tempo a leggere questo. Qualsiasi commento generale su LASSO / lars / glmnet sarebbe anche molto apprezzato.