Macchina per l'apprendimento estremo: di cosa si tratta?

Sto pensando, implementando e usando il paradigma ELM (Extreme Learning Machine) da più di un anno ormai, e più a lungo lo faccio, più dubito che sia davvero una buona cosa. La mia opinione, tuttavia, sembra essere in contrasto con la comunità scientifica in cui - quando si usano citazioni e nuove pubblicazioni come misura - sembra essere un argomento caldo.

L'ELM è stato introdotto da Huang et. al. intorno al 2003. L'idea di base è piuttosto semplice: iniziare con una rete neurale artificiale a 2 strati e assegnare casualmente i coefficienti nel primo strato. In questo modo si trasforma il problema di ottimizzazione non lineare che di solito viene gestito tramite backpropagation in un semplice problema di regressione lineare. Più dettagliato, per , il modello è $\mathbf x \in \mathbb R^D$

f (x) = \sum_{i = 1}^{N_{hidden}} w_{i} σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

Ora, solo i vengono regolati (al fine di ridurre al minimo la perdita degli errori al quadrato), mentre i vengono tutti scelti casualmente. Come compensazione per la perdita di gradi di libertà, il solito suggerimento è di usare un numero piuttosto elevato di nodi nascosti (cioè parametri liberi ). $w_i$ $v_{ik}$ $w_i$

Da un'altra prospettiva (non quella generalmente promossa in letteratura, che proviene dal lato della rete neurale), l'intera procedura è semplicemente una regressione lineare, ma quella in cui scegli le tue funzioni di base modo casuale, ad esempio $\phi$

ϕ_{i} (x) = σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$\phi_i(\mathbf x) = \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

(Molte altre opzioni accanto al sigmoide sono possibili per le funzioni casuali. Ad esempio, lo stesso principio è stato applicato anche usando le funzioni di base radiale.)

Da questo punto di vista, l'intero metodo diventa quasi troppo semplicistico, e questo è anche il punto in cui comincio a dubitare che il metodo sia davvero buono (... mentre lo è certamente il suo marketing scientifico). Quindi, ecco le mie domande:

L'idea di rasterizzare lo spazio di input usando funzioni di base casuali è, a mio avviso, buona per dimensioni ridotte. Ad alte dimensioni, penso che non sia proprio possibile trovare una buona scelta usando la selezione casuale con un numero ragionevole di funzioni di base. Pertanto, l'ELM si degrada in dimensioni elevate (a causa della maledizione della dimensionalità)?
Sei a conoscenza di risultati sperimentali a supporto / in contraddizione con questa opinione? Nel documento collegato c'è solo un set di dati di regressione a 27 dimensioni (PYRIM) in cui il metodo si comporta in modo simile agli SVM (mentre preferirei vedere un confronto con una backpropagation ANN)
Più in generale, vorrei qui i vostri commenti sul metodo ELM.

regression

— davidhigh
fonte

Guarda qui per la storia completa: theanonymousemail.com/view/?msg=ZHEZJ1AJ

— davidhigh,

Risposte:

La tua intuizione sull'uso dell'ELM per problemi ad alta dimensione è corretta, ho alcuni risultati su questo, che sto preparando per la pubblicazione. Per molti problemi pratici, i dati non sono molto non lineari e l'ELM funziona abbastanza bene, ma ci saranno sempre set di dati in cui la maledizione della dimensionalità significa che la possibilità di trovare una buona base funzioni con la curvatura proprio dove serve, diventa piuttosto piccolo, anche con molti vettori di base.

Personalmente userei qualcosa come una macchina vettoriale di supporto dei minimi quadrati (o una rete di funzioni di base radiale) e proverei a scegliere i vettori di base tra quelli nel set di addestramento in modo avido (vedi ad esempio il mio documento , ma c'erano altri / migliori approcci pubblicati più o meno nello stesso periodo, ad esempio nell'ottimo libro di Scholkopf e Smola su "Imparare con i kernel"). Penso che sia meglio calcolare una soluzione approssimativa al problema esatto, piuttosto che una soluzione esatta a un problema approssimativo, e le macchine del kernel hanno una base teorica migliore (per un kernel fisso; o).

— Dikran Marsupial
fonte

+1. Non ho mai sentito parlare di ELM prima, ma dalla descrizione nell'OP suona un po 'come la macchina a stato liquido (LSM): connettività di rete casuale e ottimizzazione solo dei pesi di lettura. Tuttavia, in LSM il "serbatoio" casuale è ricorrente, mentre in ELM è feedforward. È davvero la somiglianza e la differenza?

— ameba dice di reintegrare Monica l'

k (x, x_{i})

$k(\mathbf x,\mathbf x_i)$

x_{i}

$\mathbf x_i$

@amoeba: non conoscevo la macchina a stato liquido, ma da quello che dici sembra davvero molto simile ... e, ovviamente, tecnicamente più generale. Tuttavia, la ricorrenza aggiunge semplicemente una forma più complessa di casualità al problema, che secondo me non cura i problemi della maledizione della dimensionalità (... ma ok, chi lo fa?). Quei pesi di valuta sono scelti con una certa cura o anche completamente casuali?

— davidhigh,

@davidhigh per un kernel RBF, i "teoremi del rappresentante" mostrano che non esiste una soluzione migliore che centrare una funzione di base su ciascun campione di addestramento (facendo alcune ipotesi ragionevoli sulla funzione di costo regolarizzato). Questa è una delle belle caratteristiche dei metodi del kernel (e delle spline), quindi non è necessario diffonderle casualmente. A proposito, la costruzione di un modello lineare sull'output di funzioni di base selezionate casualmente ha una storia molto lunga, il mio preferito è il singolo strato cercare perceptron ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=51949&tag=1 ma I potrebbe essere di parte!

— Dikran Marsupial,

@DikranMarsupial hai pubblicato o hai qualcosa di pre-pubblicazione disponibile?

— Tom Hale,

L'ELM "impara" dai dati risolvendo analiticamente i pesi di output. Pertanto, maggiore è il numero di dati immessi nella rete produrrà risultati migliori. Tuttavia, ciò richiede anche un numero maggiore di nodi nascosti. Se l'ELM viene addestrato con un errore minimo o nullo, quando viene fornito un nuovo set di input, non è in grado di produrre l'output corretto.

Il vantaggio principale dell'ELM rispetto alla tradizionale rete neurale di tale propagazione alla schiena è il suo rapido tempo di addestramento. Gran parte del tempo di calcolo viene impiegato per risolvere il peso dello strato di output, come indicato nella carta Huang.

— user62106
fonte