So che k-medie è di solito ottimizzato usando l'ottimizzazione delle aspettative . Tuttavia, potremmo ottimizzare la sua funzione di perdita nello stesso modo in cui ne ottimizziamo tutti gli altri!
Ho trovato alcuni documenti che usano effettivamente la pendenza stocastica del gradiente per k-medie su larga scala, ma non sono riuscito a ottenere una risposta alla mia domanda.
Quindi, qualcuno sa perché? È perché l'ottimizzazione delle aspettative converge più velocemente ? Ha qualche garanzia particolare? O è una ragione storica ?