Utilizzo di LASSO solo per la selezione delle funzioni


10

Nel mio corso di apprendimento automatico, abbiamo appreso come la regressione di LASSO è molto efficace nell'esecuzione della selezione delle funzionalità, poiché utilizza la regolarizzazione .l1

La mia domanda: le persone usano normalmente il modello LASSO solo per fare la selezione delle funzioni (e quindi procedono a scaricare quelle caratteristiche in un modello di apprendimento automatico diverso) o usano tipicamente LASSO per eseguire sia la selezione delle funzioni sia l'effettiva regressione?

Ad esempio, supponi di voler eseguire la regressione della cresta, ma ritieni che molte delle tue funzioni non siano molto buone. Sarebbe saggio eseguire LASSO, prendere solo le funzionalità che non sono quasi azzerate dall'algoritmo e quindi utilizzare solo quelle per scaricare i dati in un modello di regressione della cresta? In questo modo, si ottiene il vantaggio della regolarizzazione per l'esecuzione della selezione delle funzioni, ma anche il vantaggio della regolarizzazione per ridurre il sovrautilizzo. (So ​​che questo equivale sostanzialmente alla regressione della rete elastica, ma sembra che non sia necessario avere entrambi i termini e nella funzione dell'obiettivo di regressione finale.)l1l2l1l2

A parte la regressione, questa è una strategia saggia quando si eseguono compiti di classificazione (usando SVM, reti neurali, foreste casuali, ecc.)?


1
Sì, l'uso del lazo per la selezione delle funzioni per altri modelli è una buona idea. In alternativa, la selezione delle funzioni basate sugli alberi potrebbe anche essere fornita ad altri modelli
karthikbharadwaj,

1
Il lazo esegue solo la selezione delle funzionalità nei modelli lineari, non verifica le interazioni di ordine superiore o la non linearità nei predittori. Per un esempio di come ciò potrebbe essere importante: stats.stackexchange.com/questions/164048/… Il tuo chilometraggio può variare.
Sycorax dice di reintegrare Monica

Risposte:


11

Quasi ogni approccio che fa una qualche forma di selezione del modello e quindi fa ulteriori analisi come se in precedenza non fosse avvenuta alcuna selezione del modello ha in genere proporzioni scarse. A meno che non vi siano convincenti argomenti teorici supportati da prove provenienti ad es. Da studi di simulazione approfonditi per dimensioni e caratteristiche realistiche del campione rispetto a rapporti sulla dimensione del campione per dimostrare che questa è un'eccezione, è probabile che tale approccio abbia proprietà insoddisfacenti. Non sono a conoscenza di prove così positive per questo approccio, ma forse lo è qualcun altro. Dato che esistono alternative ragionevoli che raggiungono tutti gli obiettivi desiderati (ad esempio la rete elastica), è difficile giustificare questo approccio utilizzando un approccio ad hoc così sospetto.


3
d'accordo .... il punto è che tutto deve rientrare in un framework di crossvalidation ... quindi dovresti fare una validazione incrociata nidificata per fare le due regolarizzazioni separate (altrimenti ti imbatterai in problemi), e la crossvalidation nidificata sta usando meno dati per ogni parte.
seanv507,

1

Oltre a tutte le risposte sopra: è possibile calcolare un test di permutazione chi2 esatto per le tabelle 2x2 e rxc. Invece di confrontare il nostro valore osservato della statistica chi-quadro con una distribuzione asintotica del chi-quadrato, dobbiamo confrontarlo con l'esatta distribuzione della permutazione. Dobbiamo consentire i nostri dati in tutti i modi possibili mantenendo costanti i margini di riga e colonna. Per ogni set di dati permutati abbiamo verificato le statistiche chi2. Confrontiamo quindi la nostra chi2 osservata con le statistiche (ordinate) di chi2 La classificazione della statistica del test reale tra le statistiche del test chi2 permutate fornisce un valore p.


Potresti aggiungere dettagli alla tua risposta, per favore? Nella sua forma attuale, non è chiaro come si calcolerebbe l'esatto test chi2.
Antoine Vernet,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.