Perché l'aumento del numero di funzioni riduce le prestazioni?


12

Sto cercando di ottenere un'intuizione sul perché aumentare il numero di funzionalità potrebbe ridurre le prestazioni. Attualmente sto usando un classificatore LDA che offre prestazioni migliori bivariatamente tra alcune funzionalità, ma peggio quando si guardano più funzionalità. La mia precisione di classificazione viene eseguita utilizzando un xval stratificato di 10 volte.

Esiste un semplice caso in cui un classificatore lavorerebbe meglio in modo univoco rispetto a quello bivariatico per ottenere un'intuizione in qualche modo fisica o spaziale di ciò che sta accadendo in queste dimensioni superiori?


8
Come commento rapido, l'aggiunta di predittori irrilevanti può peggiorare le prestazioni sui nuovi dati - aumento della varianza della previsione (eccesso di adattamento). Questo perché si finisce per adattarsi al rumore e diluire il "segnale vero".
B_Miner

Risposte:


9

Vedi " Un problema di dimensionalità: un semplice esempio " - un articolo molto breve e molto vecchio di GV Trunk. Considera un problema di due classi, con distribuzioni gaussiane condizionate alla classe in cui le caratteristiche sono tutte rilevanti ma con rilevanza decrescente. Mostra che il tasso di errore di un classificatore addestrato su un campione finito converge a 0,5, mentre l'errore Bayes si avvicina a 0, con l'aumentare del numero di funzioni.


(+1) È un piccolo riferimento carino.
cardinale il

2

Questo è chiamato " Maledizione della dimensionalità ". Non so c'è qualche motivo specifico per LDA ma in generale avere molta dimensione sui risultati del vettore di funzionalità con la necessità di confini decisionali più complessi. Avere confini complessi arriva anche con una domanda "In che misura?" poiché consideriamo anche un eccesso di montaggio. Come altro punto, con dimensioni aggiuntive aumenta anche la complessità dell'algoritmo di apprendimento. Pertanto, lavorare con un algoritmo di apprendimento relativamente lento con un enorme vettore di funzioni peggiora il tuo evento di lavoro. Inoltre, con la dimensione potresti avere maggiori possibilità di avere funzioni correlate in cui non va bene per molti algoritmi di apprendimento come Neural Net o altri.

È possibile contare altri motivi che si trovano in "Curse Of Dimensionality", ma il fatto è avere un numero sufficiente di istanze con un vettore conciso della funzione che viene seguito da alcune routine di selezione delle caratteristiche.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.