Perché k-mean non è ottimizzato usando la discesa gradiente?

So che k-medie è di solito ottimizzato usando l'ottimizzazione delle aspettative . Tuttavia, potremmo ottimizzare la sua funzione di perdita nello stesso modo in cui ne ottimizziamo tutti gli altri!

Ho trovato alcuni documenti che usano effettivamente la pendenza stocastica del gradiente per k-medie su larga scala, ma non sono riuscito a ottenere una risposta alla mia domanda.

Quindi, qualcuno sa perché? È perché l'ottimizzazione delle aspettative converge più velocemente ? Ha qualche garanzia particolare? O è una ragione storica ?

— elsonidoq
fonte

Il passaggio di massimizzazione già sale il gradiente di probabilità (in base ai valori scelti dal passaggio di aspettativa), giusto?

— David J. Harris,

@ DavidJ.Harris Non penso che l'OP stia contestando il fatto che EM si comporti così, ma chiedendo perché un metodo sembra essere ampiamente usato e un altro metodo non usato così tanto. Il tuo commento non sembra indirizzare direttamente il motivo per cui EM potrebbe essere preferito.

— Glen_b -Restate Monica

Ciao @ DavidJ.Harris, è come Glen_b, capisco che entrambi gli algoritmi ottimizzano la verosimiglianza (EM) o la verosimiglianza (discesa gradiente). Dopo aver scavato in Google e amici, sono arrivato a questo link di carta se questa domanda è indirizzata. Se non mi sono perso la comprensione, EM arriva a una soluzione migliore della discesa in pendenza.

— elsonidoq,

Qual è la funzione obiettivo di k-means da ottimizzare? È differenziabile?

— Vladislavs Dovgalecs,

È facilmente differenziabile nei parametri (significa cluster) ma sicuramente non nelle assegnazioni di cluster (che sono variabili indicatore multinomiali)?

— Ruben van Bergen,

Risposte:

Come menzionato nel PO, è possibile risolvere i k-media usando la discesa gradiente, e questo può essere utile in caso di problemi su larga scala.

Ci sono certamente ragioni storiche per la prevalenza di algoritmi di stile EM per la risoluzione di k-mean (cioè l'algoritmo di Lloyd). L'algoritmo di Lloyd è così popolare che le persone a volte lo chiamano "l'algoritmo k-mean" e potrebbero persino non essere consapevoli dell'esistenza di altri approcci. Ma questa popolarità non è immeritata.

Bottou e Bengio (1995) hanno dimostrato che l'algoritmo di Lloyd equivale a ottimizzare la funzione di costo dei k-media usando il metodo di Newton. In problemi di ottimizzazione generale, metodi del secondo ordine come il metodo di Newton possono convergere più velocemente dei metodi del primo ordine come la discesa del gradiente perché sfruttano le informazioni sulla curvatura della funzione obiettivo (e i metodi del primo ordine no). In un esperimento sul noto set di dati Iris, hanno dimostrato che l'algoritmo di Lloyd è effettivamente converto più velocemente della discesa del gradiente. Sarebbe interessante vedere questo confronto su una più ampia varietà di set di dati.

Riferimenti:

Bottou e Bengio (1995) . Proprietà di convergenza degli algoritmi k-mean.

— user20160
fonte

K significa che il clustering non è supervisionato e la tecnica non supervisionata più vicina che utilizza EM è il clustering basato su modelli (modelli di miscele gaussiane, GMM). Un fastidioso problema con il clustering basato sul modello GMM si verifica quando molte delle funzionalità sono correlate, il che provoca quasi singolarità nella matrice di covarianza (correlazione) basata sulle funzionalità. In questa situazione, la funzione di probabilità diventa instabile, con gli indici delle condizioni che raggiungono l'infinito, causando la completa distruzione di GMM.

Quindi, abbandona l'idea di EM e kNN, poiché si basa su matrici di covarianza (correlazione) per analisi non supervisionate. La tua richiesta di ottimizzazione ricorda da vicino la mappatura di Sammon e il classico ridimensionamento metrico e non metrico multidimensionale (MDS). La mappatura di Sammon è basata su derivate-iterative, mentre varie forme di MDS sono comunemente composizioni eigend iterative o one-step, che possono comunque ottimizzare durante un'operazione di matrice one-step.

Ripensando alla tua richiesta: la risposta è: è già stata eseguita nella mappatura di Sammon.

— Jolet
fonte