Vorrei trovare predittori per una variabile dipendente continua tra un set di 30 variabili indipendenti. Sto usando la regressione di Lasso come implementato nel pacchetto glmnet in R. Ecco un codice fittizio:
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
Le mie domande sono come interpretare l'output:
È corretto affermare che nell'output finale tutti i predittori che mostrano un coefficiente diverso da zero sono correlati alla variabile dipendente?
Sarebbe una relazione sufficiente nel contesto di una pubblicazione su una rivista? O si prevede che fornirà statistiche di prova per la significatività dei coefficienti? (Il contesto è la genetica umana)
È ragionevole calcolare i valori di p o altre statistiche di test per rivendicare un significato? Come sarebbe possibile? Una procedura è implementata in R?
Un semplice diagramma di regressione (punti dati tracciati con un adattamento lineare) per ogni predittore sarebbe un modo adatto per visualizzare questi dati?
Forse qualcuno può fornire alcuni semplici esempi di articoli pubblicati che mostrano l'uso di Lasso nel contesto di alcuni dati reali e come segnalarlo in un diario?
cv
per la fase di previsione?