Quali sono le selezioni variabili / caratteristiche che preferisci per la classificazione binaria quando ci sono molte più variabili / caratteristiche rispetto alle osservazioni nel set di apprendimento? Lo scopo qui è discutere qual è la procedura di selezione delle caratteristiche che riduce al meglio l'errore di classificazione.
Possiamo correggere le notazioni per coerenza: per , lascia che { x i 1 , ... , x i n i } sia l'insieme di osservazioni di apprendimento del gruppo i . Quindi n 0 + n 1 = n è la dimensione del set di apprendimento. Impostiamo p come numero di funzioni (ovvero la dimensione dello spazio delle caratteristiche). Lascia che x [ i ] denoti l' i -coordinata di x .
Si prega di fornire riferimenti completi se non è possibile fornire i dettagli.
EDIT (aggiornato continuamente): procedure proposte nelle risposte seguenti
- Selezione in avanti avida Procedura di selezione variabile per la classificazione binaria
- Eliminazione all'indietro Procedura di selezione delle variabili per la classificazione binaria
- Scansione Metropolis / MCMC Procedura di selezione delle variabili per la classificazione binaria
- regressione logistica penalizzata Procedura di selezione delle variabili per la classificazione binaria
Dato che si tratta di wiki della community, ci possono essere più discussioni e aggiornamenti
Ho un'osservazione: in un certo senso, tutti voi date una procedura che consente l'ordinamento delle variabili ma non la selezione delle variabili (siete abbastanza evasivi su come selezionare il numero di funzioni, immagino che tutti voi usate la validazione incrociata?) Potete migliorare le risposte in questa direzione? (dato che si tratta di un wiki della comunità non è necessario essere il redattore di risposte per aggiungere informazioni su come selezionare il numero di variabili? Ho aperto una domanda in questa direzione qui Convalida incrociata in dimensione molto alta (per selezionare il numero di variabili utilizzate in una classificazione dimensionale molto elevata) )