La regressione di LASSO riduce i coefficienti verso zero, fornendo così un'efficace selezione del modello. Credo che nei miei dati vi siano interazioni significative tra covariate nominali e continue. Non necessariamente, tuttavia, gli "effetti principali" del modello reale sono significativi (diversi da zero). Ovviamente non lo so poiché il vero modello è sconosciuto. I miei obiettivi sono trovare il vero modello e prevedere il risultato il più vicino possibile.
Ho imparato che l'approccio classico alla costruzione di modelli includerebbe sempre un effetto principale prima di includere un'interazione. Quindi non può esserci un modello senza un effetto principale di due covariate e se esiste un'interazione delle covariate nello stesso modello. Di conseguenza, la funzione seleziona attentamente i termini del modello (ad es. Basati su AIC indietro o avanti) rispettando questa regola.step
R
LASSO sembra funzionare diversamente. Poiché tutti i parametri sono penalizzati, può senza dubbio accadere che un effetto principale sia ridotto a zero, mentre l'interazione del modello migliore (ad es. Con convalida incrociata) è diversa da zero. Questo lo trovo in particolare per i miei dati quando utilizzo R
il glmnet
pacchetto.
Ho ricevuto critiche basate sulla prima regola sopra citata, ovvero il mio modello di Lasso finale convalidato in modo incrociato non include i termini dell'effetto principale corrispondenti di alcune interazioni diverse da zero. Tuttavia, questa regola sembra alquanto strana in questo contesto. Ciò che si riduce è la domanda se il parametro nel modello vero è zero. Supponiamo che lo sia, ma l'interazione è diversa da zero, quindi LASSO lo identificherà forse, trovando così il modello corretto. In effetti sembra che le previsioni di questo modello saranno più precise perché il modello non contiene l'effetto principale true-zero, che è effettivamente una variabile di rumore.
Posso confutare le critiche basate su questo motivo o dovrei prendere precauzioni in qualche modo che LASSO includa l'effetto principale prima del termine di interazione?