Numero di caratteristiche vs. numero di osservazioni


26

Ci sono articoli / libri / idee sulla relazione tra il numero di caratteristiche e il numero di osservazioni che uno deve avere per formare un classificatore "robusto"?

Ad esempio, supponiamo che io abbia 1000 funzioni e 10 osservazioni da due classi come set di addestramento e 10 altre osservazioni come set di test. Alleno un po 'di classificatore X e mi dà il 90% di sensibilità e il 90% di specificità sul set di test. Diciamo che sono contento di questa precisione e in base a ciò posso dire che è un buon classificatore. D'altra parte, ho approssimato una funzione di 1000 variabili usando solo 10 punti, che può sembrare non molto ... robusto?

Risposte:


20

Quello che hai colpito qui è la maledizione della dimensionalità o il problema p >> n (dove p è predittori e n è osservazioni). Nel corso degli anni sono state sviluppate molte tecniche per risolvere questo problema. È possibile utilizzare AIC o BIC per penalizzare i modelli con più predittori. Puoi scegliere insiemi casuali di variabili e valutarne l'importanza usando la validazione incrociata . È possibile utilizzare la regressione della cresta , il lazo o la rete elastica per la regolarizzazione . Oppure puoi scegliere una tecnica, come una macchina vettoriale di supporto o una foresta casuale che gestisce bene un gran numero di predittori.

Onestamente, la soluzione dipende dalla natura specifica del problema che si sta tentando di risolvere.


9

+1-10.000001*ioio, nessuna quantità di dati di allenamento ti fornirà un utile classificatore. Alla fine della giornata, la quantità di campioni necessari per un determinato numero di funzioni dipende da come vengono distribuiti i dati, in generale, più funzioni hai, più dati avrai bisogno per descrivere adeguatamente la distribuzione dei dati (esponenziale nel numero di funzioni se sei sfortunato - vedi la maledizione della dimensionalità menzionata da Zach).

Se si utilizza la regolarizzazione, quindi in linea di principio (un limite superiore) l'errore di generalizzazione è indipendente dal numero di funzionalità (vedere il lavoro di Vapnik sulla macchina vettoriale di supporto). Tuttavia, ciò lascia il problema di trovare un buon valore per il parametro di regolarizzazione (la convalida incrociata è utile).


9

Probabilmente hai un'impressione eccessiva della modellazione classica, che è vulnerabile ai problemi simili al paradosso di Runge e quindi richiede un po 'di sintonizzazione di parsimonia nella post-elaborazione.
Tuttavia, nel caso dell'apprendimento automatico, l'idea di includere la robustezza come obiettivo dell'ottimizzazione del modello è solo il nucleo dell'intero dominio (spesso espresso come accuratezza su dati invisibili). Quindi, bene, fintanto che sai che il tuo modello funziona bene (ad esempio da CV), probabilmente non ha senso preoccuparsi.

p»n


1

Uno dei miei libri assolutamente preziosi negli anni è stato il manuale di Tinsley e Brown . Ci sono molti posti nel libro in cui questo argomento viene discusso da diversi autori che hanno contribuito.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.