Quanto è difendibile scegliere in un modello LASSO in modo che produca il numero di predittori diversi da zero che si desidera?


11

Quando determino la mia lambda attraverso la convalida incrociata, tutti i coefficienti diventano zero. Ma ho alcuni suggerimenti dalla letteratura che alcuni dei predittori dovrebbero sicuramente influenzare il risultato. È spazzatura scegliere arbitrariamente lambda in modo che ci sia la stessa scarsità che si desidera?

Voglio selezionare i primi 10 pronostici su 135 per un modello cox e purtroppo le dimensioni degli effetti sono piccole.


6
Sembra che dovresti utilizzare un precedente informativo, poiché disponi di informazioni non basate su dati.
Probislogic

In fondo penso che sarebbe corretto, sfortunatamente mi manca del tutto il valore statistico anche adesso da dove iniziare a farlo.
miura,

1
Sembra che tu confonda due cose diverse: (1) Se la letteratura ti dice di usare predittori specifici, includili in tutti i modelli. (2) Invece sembra reinterpretare questo come indicando che è necessario selezionare un certo numero tra molti predittori, indipendentemente dal fatto che includano quelli specifici menzionati nella letteratura. Potresti chiarire cosa stai effettivamente cercando di realizzare?
whuber

Risposte:


4

Se si desidera avere almeno un numero definito di predittori con una serie di valori definiti dalla letteratura, perché iniziare con l'approccio pure-LASSO? Come suggerito da @probabilityislogic, dovresti usare alcuni priori informativi su quelle variabili di cui hai qualche conoscenza. Se si desidera conservare alcune delle proprietà LASSO per il resto dei predittori, forse è possibile utilizzare un precedente con una doppia distribuzione esponenziale per ogni altro input, ovvero utilizzare una densità del modulo dove

p(βio)=λ2exp(-λ|βio|),
λè il moltiplicatore di lagrange corrispondente alla soluzione pure-LASSO. Quest'ultima affermazione deriva dal fatto che, in assenza delle variabili con i priori informativi, questo è un altro modo di derivare il LASSO (massimizzando il modo posteriore date le ipotesi di normalità per i residui).

3

Esiste un buon modo per eseguire LASSO ma usare un numero fisso di predittori. È la regressione del minimo angolo (LAR o LARS) descritta nel documento di Efron. Durante la procedura iterativa crea un numero di modelli lineari, ogni nuovo ha un predittore in più, quindi puoi selezionarne uno con il numero desiderato di predittori.

Un altro modo è la regolarizzazione o . Come menzionato da Nestor usando i priori appropriati, puoi incorporare le conoscenze precedenti nel modello. La cosiddetta macchina vettoriale di pertinenza di Tipping può essere utile.l1l2


3
Sebbene LARS e il lazo siano strettamente correlati, per un numero fisso di predittori, potrebbero anche non includere le stesse variabili. Si potrebbe scegliere un valore di penalità per il lazo che dia il numero desiderato di predittori, ma la scelta in nessuno dei due casi sarà unica! Quindi l'OP non ha ancora fornito una procedura ben definita, che fa parte del problema. Per LARS, c'è il piacevole vantaggio che i valori di penalità che producono un certo numero di predittori formano un intervallo, quindi scegliere un endpoint (quale?) O il punto medio o qualche altro criterio è in qualche modo più semplice.
cardinale il

1
Sì, è vero che LARS e LASSO non sono identici, ma una semplice modifica di LARS suggerita dagli autori nell'articolo originale può essere introdotta per ottenere soluzioni LASSO usando la tecnica basata su LARS.
Alexey Zaytsev,

Sì, Alexey, questo è vero. Immagino che il mio commento verga sul perché passare a LARS in primo luogo. Di solito si potrebbe facilmente scegliere un valore del parametro di penalità per il lazo che produce il numero desiderato di predittori. Il punto principale lasciato in sospeso è come si dovrebbe fare una selezione unica e le conseguenze che potrebbero avere nel caso del PO. :)
cardinale il

2

|S*|=|{j:βj*0}|β*|S*|2p|S*|(p|S*|)

λλ|S*|

Consenti a essere la nostra stima basata sui dati per e inserisci . Quindi, forse stai cercando di assicurarti che modo da aver recuperato almeno le funzionalità pertinenti? O forse stai cercando di stabilire che modo che tu sappia che le funzionalità che hai trovato sono tutte utili? In questi casi, la tua procedura sarebbe più giustificata se avessi informazioni preliminari sulle dimensioni relative di .β^β*S^={j:β^j0}S*S^S^S*S*

Inoltre, si noti che è possibile lasciare alcuni coefficienti non aperti quando si esegue il lazo, ad esempio glmnet.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.