Sto cercando di fare un cluster di k-medie su un insieme di punti 10-dimensionali. Il trucco: ci sono 10 ^ 10 punti .
Sto cercando solo il centro e le dimensioni dei cluster più grandi (diciamo da 10 a 100 cluster); Non mi interessa in quale cluster finisce ogni punto. L'uso specifico di k-significa non è importante; Sto solo cercando un effetto simile, qualsiasi k-media approssimativa o algoritmo correlato sarebbe fantastico (minibatch-SGD significa, ...). Poiché GMM è in un certo senso lo stesso problema di k-mean, anche fare GMM con le stesse dimensioni è interessante.
Su questa scala, il sottocampionamento dei dati probabilmente non modifica significativamente il risultato: le probabilità di trovare gli stessi 10 cluster principali usando un campione di 1/10000 di dati sono molto buone. Ma anche allora, questo è un problema di 10 ^ 6 punti che è sopra / oltre il limite di trattabile.