Sto pensando, implementando e usando il paradigma ELM (Extreme Learning Machine) da più di un anno ormai, e più a lungo lo faccio, più dubito che sia davvero una buona cosa. La mia opinione, tuttavia, sembra essere in contrasto con la comunità scientifica in cui - quando si usano citazioni e nuove pubblicazioni come misura - sembra essere un argomento caldo.
L'ELM è stato introdotto da Huang et. al. intorno al 2003. L'idea di base è piuttosto semplice: iniziare con una rete neurale artificiale a 2 strati e assegnare casualmente i coefficienti nel primo strato. In questo modo si trasforma il problema di ottimizzazione non lineare che di solito viene gestito tramite backpropagation in un semplice problema di regressione lineare. Più dettagliato, per , il modello è
Ora, solo i vengono regolati (al fine di ridurre al minimo la perdita degli errori al quadrato), mentre i vengono tutti scelti casualmente. Come compensazione per la perdita di gradi di libertà, il solito suggerimento è di usare un numero piuttosto elevato di nodi nascosti (cioè parametri liberi ).
Da un'altra prospettiva (non quella generalmente promossa in letteratura, che proviene dal lato della rete neurale), l'intera procedura è semplicemente una regressione lineare, ma quella in cui scegli le tue funzioni di base modo casuale, ad esempio
(Molte altre opzioni accanto al sigmoide sono possibili per le funzioni casuali. Ad esempio, lo stesso principio è stato applicato anche usando le funzioni di base radiale.)
Da questo punto di vista, l'intero metodo diventa quasi troppo semplicistico, e questo è anche il punto in cui comincio a dubitare che il metodo sia davvero buono (... mentre lo è certamente il suo marketing scientifico). Quindi, ecco le mie domande:
L'idea di rasterizzare lo spazio di input usando funzioni di base casuali è, a mio avviso, buona per dimensioni ridotte. Ad alte dimensioni, penso che non sia proprio possibile trovare una buona scelta usando la selezione casuale con un numero ragionevole di funzioni di base. Pertanto, l'ELM si degrada in dimensioni elevate (a causa della maledizione della dimensionalità)?
Sei a conoscenza di risultati sperimentali a supporto / in contraddizione con questa opinione? Nel documento collegato c'è solo un set di dati di regressione a 27 dimensioni (PYRIM) in cui il metodo si comporta in modo simile agli SVM (mentre preferirei vedere un confronto con una backpropagation ANN)
Più in generale, vorrei qui i vostri commenti sul metodo ELM.