Risposte:
I mezzi k online (più comunemente noti come mezzi k sequenziali ) e i mezzi k tradizionali sono molto simili. La differenza è che i k-media online ti consentono di aggiornare il modello quando vengono ricevuti nuovi dati.
I k-medie online dovrebbero essere usati quando ti aspetti che i dati vengano ricevuti uno per uno (o forse in blocchi). Ciò ti consente di aggiornare il tuo modello man mano che ottieni maggiori informazioni a riguardo. Lo svantaggio di questo metodo è che dipende dall'ordine in cui i dati vengono ricevuti ( rif ).
La pubblicazione originale di MacQueen k-mean (la prima ad usare il nome "kmeans") è un algoritmo online.
MacQueen, JB (1967). "Alcuni metodi per la classificazione e l'analisi delle osservazioni multivariate". Atti del 5 ° Simposio di Berkeley su statistiche matematiche e probabilità 1. University of California Press. pagg. 281–297
Dopo aver assegnato ciascun punto, la media viene aggiornata in modo incrementale utilizzando una semplice formula media ponderata (la media vecchia viene ponderata con n, la nuova osservazione viene ponderata con 1, se la media aveva n osservazioni in precedenza).
Per quanto ne so, doveva anche essere un singolo passaggio sui dati, sebbene possa essere banalmente ripetuto più volte per riassegnare i punti fino alla convergenza.
MacQueen di solito impiega meno iterazioni rispetto a Lloyds per convergere se i tuoi dati vengono mescolati (perché aggiorna la media più velocemente!). Sui dati ordinati, può avere problemi. Il rovescio della medaglia, richiede più calcoli per ogni oggetto, quindi ogni iterazione richiede leggermente più tempo (operazioni matematiche aggiuntive, ovviamente).