I migliori metodi di selezione delle funzionalità per la regressione non parametrica


10

Una domanda per principianti qui. Attualmente sto eseguendo una regressione non parametrica usando il pacchetto np in R. Ho 7 caratteristiche e usando un approccio di forza bruta ho identificato i migliori 3. Ma presto avrò molte più di 7 caratteristiche!

La mia domanda è quali sono i migliori metodi attuali per la selezione delle funzionalità per la regressione non parametrica. E che eventuali pacchetti implementano i metodi. Grazie.


1
cosa intendi con "molti altri" 100? 1000? 10000? 100000?
Robin Girard

Probabilmente avrò nell'ordine di 100 funzionalità. Ma ho solo pochi minuti per fare una decina sul miglior sottoinsieme di funzionalità.
jmmcnew,

1
Hai provato il lazo o la rete elastica? pacchetti: lasso, glmnet. Questi metodi possono "selezionare" alcune variabili in movimento.
deps_stats

Risposte:


3

A meno che l'identificazione delle variabili più rilevanti non sia un obiettivo chiave dell'analisi, spesso è meglio non effettuare alcuna selezione di funzionalità e utilizzare la regolarizzazione per evitare un adattamento eccessivo. La selezione delle funzionalità è una procedura complessa ed è fin troppo facile sovrapporre il criterio di selezione delle funzionalità in quanto vi sono molti gradi di libertà. LASSO e la rete elastica sono un buon compromesso, raggiungono la scarsità tramite la regolarizzazione piuttosto che attraverso la selezione diretta delle caratteristiche, quindi sono meno inclini a quella particolare forma di over-fitting.


0

Il lazo è davvero buono. Le cose semplici come iniziare con nessuna e aggiungerle una per una in ordine di "utilità" (tramite validazione incrociata) funzionano abbastanza bene nella pratica. Questo è talvolta chiamato selezione feedforward per fasi.

Si noti che il problema di selezione del sottoinsieme è abbastanza indipendente dal tipo di classificazione / regressione. È solo che i metodi non parametrici possono essere lenti e quindi richiedere metodi di selezione più intelligenti.

Il libro "Gli elementi dell'apprendimento statistico" di T. Hastie offre una bella panoramica.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.