Lascia che ti mostri un esempio di un'ipotetica applicazione di clustering online:
Al momento n punti 1,2,3,4 sono assegnati al gruppo blu A e punti b, 5,6,7 sono assegnati al gruppo rosso B.
Al tempo n + 1 viene introdotto un nuovo punto a che viene assegnato al cluster blu A ma che determina anche l'assegnazione del punto b al cluster blu A.
Alla fine i punti 1,2,3,4, a, b appartengono ad A e i punti 5,6,7 a B. Per me questo sembra ragionevole.
Ciò che sembra semplice a prima vista è in realtà un po 'complicato: mantenere gli identificatori attraverso le fasi temporali. Vorrei provare a chiarire questo punto con un esempio più borderline:
Il punto verde causerà la fusione di due punti blu e due rossi in un unico cluster che ho arbitrariamente deciso di colorare in blu - questo è già il mio pensiero euristico umano al lavoro!
Un computer per prendere questa decisione dovrà usare le regole. Ad esempio, quando i punti vengono uniti in un cluster, l'identità del cluster viene determinata dalla maggioranza. In questo caso dovremmo affrontare un pareggio: sia il blu che il rosso potrebbero essere scelte valide per il nuovo cluster (qui di colore blu).
Immagina un quinto punto rosso vicino a quello verde. Quindi la maggioranza sarebbe rossa (3 rosse contro 2 blu), quindi il rosso sarebbe una buona scelta per il nuovo cluster - ma questo contraddirebbe la scelta ancora più chiara del rosso per il cluster più a destra in quanto quelli sono stati rossi e probabilmente dovrebbero rimanere così .
Trovo sospetto pensare a questo. Alla fine, credo che non ci siano regole perfette per questo - piuttosto euristica che ottimizza alcuni criteri di stabilità.
Questo alla fine porta alle mie domande:
- Questo "problema" ha un nome a cui può essere fatto riferimento?
- Esistono soluzioni "standard" a questo e ...
- ... c'è forse anche un pacchetto R per quello?
Eredità ragionevole delle identità del cluster nel clustering ripetitivo