In quale contesto ti aspetti che il modello trovato da LARS differisca maggiormente dal modello trovato dalla ricerca esaustiva?


9

Un po 'più di informazioni; supporre che

  1. sai in anticipo quante variabili selezionare e che hai impostato la penalità di complessità nella procedura LARS in modo tale da avere esattamente quante variabili con coefficienti diversi da 0,
  2. i costi di calcolo non sono un problema (il numero totale di variabili è piccolo, diciamo 50),
  3. che tutte le variabili (y, x) sono continue.

In quale contesto il modello LARS (ovvero l'adattamento OLS di quelle variabili che hanno coefficienti non zero nell'adattamento LARS) sarebbe molto diverso da un modello con lo stesso numero di coefficienti ma trovato attraverso una ricerca esaustiva (a la regsubsets ())?

Modifica: sto usando 50 variabili e 250 osservazioni con i coefficienti reali ricavati da un gaussiano standard ad eccezione di 10 delle variabili con coefficienti "reali" pari a 0 (e tutte le caratteristiche sono fortemente correlate tra loro). Queste impostazioni ovviamente non sono buone in quanto le differenze tra i due gruppi di variabili selezionate sono minime. Questa è davvero una domanda su quale tipo di configurazione dei dati si dovrebbe simulare per ottenere il maggior numero di differenze.

Risposte:


1

Ecco la descrizione dell'algoritmo LARS: http://www-stat.stanford.edu/~tibs/lasso/simple.html In un certo senso ignora la correlazione tra i regressori, quindi mi azzarderei a indovinare che potrebbe perdere l'adattamento in caso di multicollinearità.


questo è ciò che motiva la mia domanda in realtà. Ho simulato impostazioni con 50 variabili in cui il valore più grande del vif è superiore a 30 e vedo ancora pochissime differenze (ad esempio in termini di R ^ 2 dei modelli selezionati) tra i due approcci.
user603,

1
Io stesso ho trovato risposte diverse con stepAIC e lars e immagino che il mio problema debba essere trattato con il gruppo LASSO - non riguarda il VIF dell'intera matrice, ma un numero di cluster di variabili correlate.
Alex,

Interresting ... come si generano tali dati? (vale a dire con cluster di variabili correlate)
user603

Impilare insieme un numero di gruppi indipendenti con correlazione all'interno di essi. Io stesso ho un sacco di domande poste su un certo numero di marchi: le persone tendono ad apprezzare il marchio di loro scelta e non amano gli altri.
Alex,

3

Più funzionalità hai, in relazione al numero di campioni, più è probabile che tu ottenga un eccesso di adattamento con il metodo di ricerca esaustivo rispetto a LARS. Il termine di penalità usato in LARS impone una struttura nidificata di modelli sempre più complessi, indicizzati da un singolo parametro di regolarizzazione, quindi i "gradi di libertà" della selezione delle caratteristiche con LARS sono piuttosto bassi. Per la ricerca esaustiva, esiste effettivamente un grado (binario) di libertà per caratteristica, il che significa che la ricerca esaustiva è in grado di sfruttare meglio la variabilità casuale nel criterio di selezione della caratteristica a causa del campionamento casuale dei dati. Di conseguenza, è probabile che il modello di ricerca esaustivo sia severamente adattato al criterio di selezione delle caratteristiche, poiché la "classe di ipotesi" è più ampia.


La tua risposta non sembra correlata alla mia domanda. Per chiarire: sono davvero interessato a generare situazioni in cui il sottoinsieme di variabili selezionate come attive da LARS sarebbe molto diverso da quelle selezionate dalla ricerca esaustiva, con questo misurato, diciamo, dalla differenza in R ^ 2 tra il modello LARS e il modello di ricerca esaustivo con lo stesso numero di variabile attiva . Riesci a pensare a un caso avversario in cui questa differenza sarebbe grande? Puoi riformulare la tua risposta in questi termini?
user603

3
La mia risposta è direttamente correlata alla tua domanda. Il grado di over-fitting non è controllato solo dal numero di funzioni, ma dai valori dei pesi. Pertanto, è possibile eseguire l'over-fit senza utilizzare più funzionalità. LARS pone una penalità sulla grandezza dei pesi, quindi non sceglie caratteristiche che riducono solo la perdita quadrata a scapito dei pesi di grandi dimensioni, motivo per cui è meno incline a un adattamento eccessivo. I metodi di ricerca esaustivi sono fondamentalmente una ricetta per un eccesso di adattamento, quindi otterrai soluzioni molto diverse in situazioni in cui è probabile che si verifichi un eccesso di adattamento.
Dikran Marsupial,

Ok, capisco il punto: viene da qualcosa che ho appiccicato nella mia domanda originale (e spero di averlo chiarito ora). Sto davvero confrontando apple e apple qui (cioè i modelli selezionati), o in altre parole, (R ^ 2 delle) OLS si adattano usando quelle variabili selezionate da LARS e (R ^ 2 delle) OLS si adattano usando quelle variabili selezionate da una ricerca esaustiva. Non sto usando direttamente i coefficienti LARS ....
user603

3
Non è ortogonale, è improbabile che un modello sia migliore di un altro senza essere diverso. In situazioni in cui è probabile un eccesso di adattamento, è probabile che un modello basato sulla ricerca esaustiva sia instabile, ad esempio se si raccolgono 500 diversi campioni, è probabile che si ottenga un diverso set di funzionalità. D'altra parte, LARS è probabilmente più stabile. Se è probabile che 50 funzioni e 500 campioni provochino un overfitting dipende dalla natura del set di dati, ma è certamente possibile. La ricerca esaustiva è suscettibile di scegliere caratteristiche che spiegano la variabilità peculiare di questo campione; Molto meno.
Dikran Marsupial,

2
Potrebbe essere utile se tu potessi spiegare perché vorresti farlo. Ho il sospetto che la cosa che devi guardare sia l'entità dei pesi del modello reale, nonché quella della distribuzione dei dati. I modelli di regressione penalizzata (LASSO, LARS, rete Elaris, regressione della cresta) hanno una precedenza sulla distribuzione prevista dei pesi, quindi se si dispone di un set di dati in cui questo non è valido, potrebbe essere un buon punto di partenza.
Dikran Marsupial,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.