Non ho esperienza nel settore del data mining o dei big data, quindi mi piacerebbe sentirti condividere qualche esperienza.
Le persone eseguono effettivamente k-mean, PAM, CLARA, ecc. Su un set di dati davvero grande? Oppure scelgono a caso un campione da esso? Se prendessero solo un campione del set di dati, il risultato sarebbe affidabile se il set di dati non fosse normalmente distribuito?
In situazioni pratiche durante l'esecuzione di questi algoritmi, possiamo dire quante iterazioni normalmente impiegherebbero fino a quando non si verifica la convergenza? O il numero di iterazioni aumenta sempre con la dimensione dei dati?
Lo sto chiedendo perché sto pensando di sviluppare un approccio per terminare gli algoritmi iterativi prima della convergenza, eppure i risultati sono ancora accettabili. Penso che valga la pena provare se il numero di iterazioni è, diciamo più di 1.000, in modo da poter risparmiare un po 'di tempo e costi computazionali. Cosa ne pensi?
number of iterations always grow with the data sizeNon necessariamente.