Ho letto che l'algoritmo k-mean converge solo in un minimo locale e non in un minimo globale. Perchè è questo? Posso logicamente pensare a come l'inizializzazione possa influenzare il clustering finale e c'è una possibilità di clustering non ottimale, ma non ho trovato nulla che lo dimostrasse matematicamente.
Inoltre, perché k-significa un processo iterativo? Non possiamo semplicemente differenziare parzialmente la funzione oggettiva rispetto ai centroidi, equipararla a zero per trovare i centroidi che minimizzano questa funzione? Perché dobbiamo usare la discesa gradiente per raggiungere il minimo passo dopo passo?