(Perché) La SOM in stile Kohonen è caduta in disgrazia?


33

Per quanto ne so, i SOM in stile Kohonen hanno avuto un picco nel 2005 e non hanno visto tanto favore di recente. Non ho trovato alcun documento che affermi che i SOM sono stati inclusi in un altro metodo o si sono dimostrati equivalenti a qualcos'altro (a dimensioni superiori, comunque). Ma sembra che tSNE e altri metodi ottengano molto più inchiostro oggi, ad esempio in Wikipedia o in SciKit Learn, e SOM è menzionato più come un metodo storico.

(In realtà, un articolo di Wikipedia sembra indicare che i SOM continuano ad avere alcuni vantaggi rispetto ai concorrenti, ma è anche la voce più breve nell'elenco. EDIT: Per richiesta di gung, uno degli articoli a cui sto pensando è: Riduzione dimensionale non lineare Si noti che SOM ne ha meno scritto rispetto agli altri metodi. Non riesco a trovare l'articolo che menzionasse un vantaggio che i SOM sembrano conservare rispetto alla maggior parte degli altri metodi.)

Qualche intuizione? Qualcun altro ha chiesto perché i SOM non vengono utilizzati e ha ricevuto riferimenti da qualche tempo fa, e ho trovato procedimenti dalle conferenze SOM, ma mi chiedevo se l'ascesa di SVM o tSNE, et al, avesse semplicemente eclissato i SOM nell'apprendimento automatico pop.

EDIT 2: Per pura coincidenza, stavo leggendo un sondaggio del 2008 sulla riduzione della dimensionalità non lineare questa sera, e per esempio menziona solo: Isomap (2000), embedding localmente lineare (LLE) (2000), Hessian LLE (2003), Laplacian eigenmaps (2003) e semidefinite embedding (SDE) (2004).


3
Puoi collegarti a una delle risorse a cui ti riferisci? (Ad esempio, quale articolo di Wikipedia "sembra indicare ..."?)
gung - Reinstalla Monica

11
Sembrano essere caduti in disgrazia nella misura in cui non so a cosa si riferisca SOM.
Matthew Drury,

5
apparentemente, mappa auto-organizzante
Christoph Hanck,

SOM è solo una variante del ridimensionamento multidimensionale (MDS) che è molto più vecchio.
kjetil b halvorsen,

@kjetilbhalvorsen: hai riferimenti su SOM e MDS? A quanto ho capito, MDS è di natura globale (correlato a PCA), mentre SOM è di natura locale. O forse li fraintendo.
Wayne,

Risposte:


18

Penso che tu sia interessato a qualcosa notando l'influenza di ciò che l'apprendimento automatico attualmente proclama come i "migliori" algoritmi per la riduzione della dimensionalità. Mentre t-SNE ha dimostrato la sua efficacia nelle competizioni, come la Merck Viz Challenge , personalmente ho avuto successo nell'implementare SOM sia per l'estrazione delle caratteristiche che per la classificazione binaria. Mentre ci sono certamente alcuni che respingono i SOM senza giustificazione oltre all'età dell'algoritmo (dai un'occhiata a questa discussione , ci sono anche alcuni articoli che sono stati pubblicati negli ultimi anni che hanno implementato i SOM e ottenuto risultati positivi (vedi Mortazavi et al., 2013 ; Frenkel et al., 2013per esempio). Una ricerca di Google Scholar rivelerà che i SOM sono ancora utilizzati in numerosi domini applicativi. Come regola generale, tuttavia, l'algoritmo migliore per una determinata attività è esattamente quello: l'algoritmo migliore per una determinata attività. Laddove una foresta casuale potrebbe aver funzionato bene per un determinato compito di classificazione binaria, potrebbe funzionare in modo orribile su un altro. Lo stesso vale per le attività di clustering, regressione e ottimizzazione. Questo fenomeno è legato al teorema del pranzo libero , ma è un argomento per un'altra discussione. In breve, se SOM funziona meglio per te in una determinata attività, questo è l'algoritmo che dovresti usare per quella attività, indipendentemente da ciò che è popolare.


5

Ho fatto ricerche sul confronto tra SOM e t-SNE e altro e ho anche proposto un miglioramento su SOM che lo porta a un nuovo livello di efficienza. Dai un'occhiata qui e fammi sapere il tuo feedback. Mi piacerebbe avere qualche idea su ciò che la gente pensa a riguardo e se vale la pena pubblicare in Python per essere usato dalle persone.

Link IEEE al documento: http://ieeexplore.ieee.org/document/6178802/

Implementazione di Matlab. https://www.mathworks.com/matlabcentral/fileexchange/35538-cluster-reinforcement--cr--phase

Grazie per il tuo feedback


4
Benvenuto in Cross Validated! Sarebbe utile fornire un breve riassunto delle tue scoperte e dei miglioramenti che hai apportato e forse anche di affrontare la domanda in modo più diretto.
Scortchi - Ripristina Monica

1

La mia opinione soggettiva è che i SOM sono meno conosciuti e percepiti come meno "sexy" rispetto a molti altri metodi, ma sono ancora altamente rilevanti per alcune classi di problemi. Può darsi che avrebbero un contributo significativo da dare se fossero più ampiamente utilizzati. Sono inestimabili nelle prime fasi della scienza dei dati esplorativi per farsi un'idea del "paesaggio" o della "topologia" dei dati multivariati.

Lo sviluppo di biblioteche come Somoclu e ricerche come quella di Guénaël Cabanes (tra le altre) mostra che i SOM sono ancora rilevanti.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.